模型优化学习笔记—动量梯度下降

一、mini-batch

梯度下降（gradient descent）：

SGD（stochastic GD）随机梯度下降：对一个样本做梯度下降

batch梯度下降：使用所有样本做梯度下降（做一次又叫epoch）

mini-batch梯度下降：用子训练集做梯度下降

epoch：对整个训练集做了一次梯度下降

iteration：做了一次梯度下降

batch梯度下降、随机梯度下降、mini-batch梯度下降：这3个梯度下降的区别仅仅在于它们每次学习的样本数量不同。无论是哪种梯度下降，学习率都是必须要精心调的。通常来说，如果数据集很大，那么mini-batch梯度下降会比另外2种要高效。

mini-batch生成步骤（X,Y同步进行）：
1、洗牌：随机调换样本顺序
2、分割：根据mini-batch-size切割

其中一列关于numpy分割的示例：

def func_test():# 4个样本，两个特征: 两行4列arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])print(arr)print("-----样本顺序调整-----")print(arr[:, [1, 0, 2]])print("-----生成随机组合-----")permutation = list(np.random.permutation(3))print(permutation)print("-----样本顺序根据随机调整-----")print(arr[:, permutation])print("-----样本批量抽取-----")print(arr[:, 1:3])

[[1 2 3 4][5 6 7 8]]
-----样本顺序调整-----
[[2 1 3][6 5 7]]
-----生成随机组合-----
[1, 0, 2]
-----样本顺序根据随机调整-----
[[2 1 3][6 5 7]]
-----样本批量抽取-----
[[2 3][6 7]]

def random_mini_batches(X, Y, mini_batch_size=64, seed=0):np.random.seed(seed)# 样本数量m = X.shape[1]mini_batches = []# 第一步：洗牌permutation = list(np.random.permutation(m))  # 随机生成m内的整数，例如m=5，则生成 [2,4,1,3,0]shuffled_X = X[:,permutation]shuffled_Y = Y[:,permutation]# 第二步：分割num_complete_mini_batches = math.floor(m / mini_batch_size)  # 向下取整for k in range(0, num_complete_mini_batches):start_index = mini_batch_size * kend_index = mini_batch_size * (k + 1)mini_batch_X = shuffled_X[:, start_index:end_index]mini_batch_Y = shuffled_Y[:, start_index:end_index]mini_batch = (mini_batch_X, mini_batch_Y)mini_batches.append(mini_batch)if m % mini_batch_size != 0:# 最后剩余的不足mini_batch_size的样本mini_batch_X = shuffled_X[:, num_complete_mini_batches * mini_batch_size:]mini_batch_Y = shuffled_Y[:, num_complete_mini_batches * mini_batch_size:]mini_batches.append((mini_batch_X, mini_batch_Y))return mini_batches

二、如何为mini-batch选择合理的batch size

batch size 对网络的影响：

1、没有batch size（全训练集），梯度准确，只适用于小样本的数据

2、batch size = 1，随机梯度下降，梯度变来变去，非常不准确，网络很难收敛

3、batch size增大，梯度变准确（mini-batch）

4、batch size增大，梯度已经非常准确，再增大也没用。

随机梯度下降、batch梯度下降会使得梯度的准确度处于两个极端，而mini-batch处于两个极端之间。

batch size也是一个超参数，需要根据成本变化来调整。一般来说batch size选择为2的n次方，2、4、8…1024…，这样会使得计算机运算的快些。常见的batch size有：64、512。

mini-batch的不足：

batch梯度下降因为梯度准确，则成本变化较准确，成本下降曲线平滑。而mini-batch的梯度下降，会不断趋于准确，但整个过程中，会因为批次的变化（更换了样本），有抬升的地方，即成本曲线震荡下行。而优化的方式，则是动量梯度下降、RMSprop、Adam优化算法。

三、指数加权平均

又名指数加权移动平均，是一种常用的序列数据处理方式，本质是通过计算局部的平均值，来描述数值的变化趋势。可以用来绘制趋势曲线。

核心公式：Vt = k* V[t-1] + (1-k) * Wt，k是一个超参数，决定了v值应该受前面多少个（1 / (1-k) ）数据的影响。k越大，则说明受影响前面数据的个数越多。而计算结果vt则可以理解为前多少个的近似平均值（非真实平均值）

示例1：

当天人民币汇率趋势 = 0.9 * 前一天人民币汇率 + 0.1 * 当天人民币汇率。此时k = 0.9，表示受前面10天的影响。

示例2：当k=0.9时，求的结果为前100天的温度趋势：

v100 = 0.9*v99 + 0.1*w100v99 = 0.9*v98 + 0.1*w99v98 = 0.9*v97 + 0.1*w98...v1 = 0.9*v0 + 0.1*w1

把v99代入v100，则：

v100 = 0.9*(0.9*v98 + 0.1*w99) + 0.1*w100
=0.1*w100 + 0.1*0.9*w99 + 0.9*0.9*v98 
=0.1*w100 + 0.1*0.9*w99 + 0.9*0.9*(0.9*v97 + 0.1*w98) 
=0.1*w100 + 0.1*0.9*w99 + (0.9^3)*v97 + 0.1* (0.9^2)*w98

…

v100 = 0.1w100 + 0.1*0.9*w99 + 0.1*(0.9)^2*w98 + 0.1*(0.9)^3*w97 +...

可以看出，前100天温度由一小部分拼凑而成，越往前权重越小，也就是说越来越不受前面数据的影响。
0.1 约等于 0.1乘0.9 约等于 0.1乘0.9平方…，而10个约等于加起来=1。所以v值相当于前10天的平均值。
如果k = 0.98，那么要50个0.02才等于1，也就是说vt相当于前面50天平均值。

计算指数加权平均：

for i in range(t)v0 = 0v1 = 0.98v0 + 0.02w1v2 = 0.98v1 + 0.02w2...

修正算法：

在计算指数加权平均时，假设w1为40度，w2为40度，那么 v1 = 0.8，v2 = 0.98*0.8 + 0.8 = 1.584，说明前面的数值与实际值会相差很远。此时就需要修正。用公式 vt = vt / (1-k^t)，此时v1 = 0.8 / (1-0.98^1) = 40。后面随着t越来越大，分母越来越接近1，故vt就不需要修正了。另外因为只是前面的会偏离一部分，故一般情况下也不会去修正。