斯坦福机器学习笔记-第五周

yczha大约 2 分钟

这篇文章是斯坦福大学吴恩达老师机器学习课程第五周的笔记

神经网络的损失函数

首先，定义几个新的变量：

L=神经网络的总层数
$s_{l}$ =第l层的单元数（不含偏置项）
K=输出单元数

相较于逻辑回归，神经网络的区别在于输出层有多个值，这样，将逻辑回归的损失函数稍加修改，可得神经网络的损失函数：

反向传播算法(backpropagation)

反向传播算法是一个神经网络中用来最小化损失函数的术语，类似逻辑回归和线性回归中的梯度下降。

反向传播的计算流程是：

给定训练集 $(x^{(1), y^{(1)}}, . . ., (x^{(m)}, y^{(m)})$
设定 $Δ_{i, j}^{(l)} := 0$
对于训练样本 $t = 1 : m$
- 设定 $a^{(1)} := x^{(t)}$
- 计算前向传播的结果 $a^{(l)}; (l = 1, 2, . . ., L)$
计算 $δ^{(L)} = a^{(L)} - y^{(t)}$
使用 $δ^{(l)} = [(Θ^{(l)})^{T} δ^{(l + 1)}] . * a^{(l)} . * (1 - a^{(l)})$ 来计算 $δ^{(L - 1)}, δ^{(L - 2)}, . . ., δ^{(2)}$
这里 $g^{'} (z^{(l)}) = a^{(l)} . * (1 - a^{(l)})$
$Δ_{i, j}^{(l)} := Δ_{i, j}^{(l)} + a_{j}^{(l)} δ_{i}^{(l + 1)}$
由此得到更新公式：
$D_{i, j}^{(l)} := \frac{1}{m} (Δ_{i, j}^{(l)} + λ Θ_{i, j}^{(l)}); i f j \neq 0$
$D_{i, j}^{(l)} := \frac{1}{m} (Δ_{i, j}^{(l)}); i f j = 0$
这里 $D_{i, j}^{(l)} = \frac{\partial}{\partial Θ_{i, j}^{(l)}} J (Θ)$

梯度检验

首先使用反向传播计算梯度 $D^{(1)}, . . ., D^{(n)}$ ，然后使用梯度估算公式计算 $\frac{\partial J (Θ)}{\partial Θ_{j}} \approx \frac{J (θ + ϵ) - J (θ - ϵ)}{2 ϵ}$ ，通过对比两者的差即可知道梯度计算是否正确。

随机初始化

在逻辑回归中，我们使用0来初始化 $θ$ ，但是在神经网络中，不能使用全0来初始化，这会导致层内的所有神经元结果都是一样的，这样就失去了使用多个神经元的意义。称这样的现象称为对称。为了打破对称，可以使用随机初始化方法。

网络架构的选择

选择网络架构，就是选择网络层数及每层的单元数。对于输入输出层，其单元数是确定的，输入层单元数就是样本的特征数，而输出层的单元数就是分类数目，然而隐藏层的层数及单元数确实不确定的，一般来说，隐藏层一般选择一层，而节点数尽可能多。还有一点就是当选择多层隐藏层时，通常让各层的单元数相同。

斯坦福机器学习笔记-第五周

# 神经网络的损失函数

# 反向传播算法(backpropagation)

# 梯度检验

# 随机初始化

# 网络架构的选择

神经网络的损失函数

反向传播算法(backpropagation)

梯度检验

随机初始化

网络架构的选择