神经网络初探

克里斯蒂亚诺诺 2024-01-12 13:56:52  58803 赞同 0 反对 0

分类：资源标签：运维

最近在搞神经网络，学到很多，记录一下。

1 有一个n维输入的单层感知机

x1 至 x n x_nxn 为 n 维输入向量的各个分量，w 1 j w_{1j}w1j 至 w n j w_{nj}wnj为各个输入分量连接到感知机的权量（或称权值），theta 为阈值，f 为激活函数（又称为激励函数或传递函数），o 为标量输出。理想的激活函数通常为阶跃函数或者sigmoid函数。感知机的输出是输入向量x与权重向量w求得内积后，经激活函数f所得到的标量。

2 多层感知机

3 前向传播

4 反向传播

5 卷积神经网络

看图说话，这是一张卷积神经网络的图片，按顺序来是输入层，卷积层，池化层，卷积和池化层可以重复N次，然后是全连接层。

卷积层：用于对图像进行特征提取操作，其卷积核权重是共享权值的，对应的相关概念还包括步长，填充。

池化层：用于降低特征图大小，降低后续操作的计算量和参数量

全连接层：最终进行分类输出使用，本质就是多层感知机

6 卷积的过程是这样的

卷积需要注意的是填充（Padding）和步长（Stride）

如图所示

7 池化的过程是这样的

池化层的作用：使特征图变小，简化网络计算复杂度；压缩特征，提取主要特征

8 全连接层

全连接一般会把卷积输出的二维特征图转化成一维的一个向量。

其中，x1、x2、x3为全连接层的输入，a1、a2、a3为输出

可以写成如下矩阵形式：

9 激活函数

激活函数是用来加入非线性因素的，因为线性模型的表达力不够。
假设如果没有激活函数的出现，你每一层节点的输入都是上层输出的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，也就是说没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后，无非还是个矩阵相乘罢了。那么网络的逼近能力就相当有限。正因为上面的原因，我们决定引入非线性函数作为激活函数，这样深层神经网络表达能力就更加强大（不再是输入的线性组合，而是几乎可逼近任意函数）

常见的激活函数有sigmoid、tanh和relu三种非线性函数

sigmoid: y = 1/(1 + e-x)
tanh: y = (ex - e-x)/(ex + e-x)
relu: y = max(0, x)

10 softmax函数

softmax用于多分类过程中，它将多个神经元的输出，映射到（0,1）区间内，可以看成概率来理解，从而来进行多分类！

假设我们有一个数组，V，Vi表示V中的第i个元素，那么这个元素的softmax值就是

更形象的如下图表示：

11 dropout层

我们知道如果要训练一个大型的网络，而训练数据很少的话，那么很容易引起过拟合，一般情况我们会想到用正则化、或者减小网络规模。然而Hinton在2012年文献：《Improving neural networks by preventing co-adaptation of feature detectors》提出了，在每次训练的时候，随机让一半的特征检测器停过工作，这样可以提高网络的泛化能力，Hinton又把它称之为dropout。