同步Sch の人工智能学习随笔（一）

1 深度学习
2 特征向量
3 激活函数
4 逻辑回归
5 损失函数
6 成本函数
7 梯度下降
8 链式法则

吼吼吼，随便记记，支持小红，两个月不学会TTS不成仁

深度学习

神经网络算法通过向前传播与反向传播构成#1
先通过向前传播计算出预测结果和损失
再通过反向传播计算出损失函数关于每一个函数（w，b）的偏导数，并对这些参数进行梯度下降。
然后用新一轮的向前传播计算，反复训练使得预测越来越精准。

特征向量

激活函数

sigmoid(z)函数，用于将数据映射在0，1之间，若不使用激活函数，AI的智力将不会提升。
若是没有激活函数套在训练出的函数上，神经网络只能运算线性函数，所以无法解决复杂问题
sigmoid(z)=1/(1+exp(-z))

tanh是sigmoid函数的升级版本，输出值在-1到1之间。
relu是整流线性单元，是非线性的，并且不会同时激活所有的神经元。如果输入值小于0神经元不会被激活
leaky relu是relu的补丁版本，如果小于0时会把数值设置为很小但是不等于0的梯度。
Softmax，根据输出总和来分类

逻辑回归

z = dot(w,x) + b

假设周末即将到来，你听说在你的城市将会有一个音乐节。我们要预测你是否会决定去参加。音乐节离地铁挺远，而且你女朋友想让你陪她宅在家里搞事情，但是天气预报说音乐节那天天气特别好。也就是说有3个因素会影响你的决定，这3个因素就可以看作是3个输入特征。那你到底会不会去呢？你的个人喜好——你对上面3个因素的重视程度——会影响你的决定。这3个重视程度就是3个权重。

如果你觉得地铁远近无所谓，并且已经精力衰竭不太想搞事情了，而且你很喜欢蓝天白云，那么我们将预测你会去音乐节。这个预测过程可以用我们的公式来表示。我们假设结果z大于0的话就表示会去，小于0表示不去。又设阈值b是-5。又设3个特征(x1,x2,x3)为(0,0,1)，最后一个是1，它代表了好天气。又设三个权重(w1,w2,w3)是(2,2,7)，最后一个是7表示你很喜欢好天气。那么就有z = (x1 w1 + x2 w2 + x3 w3) + b = (0 2 + 0 2 + 1 7) + (-5) = 2。预测结果z是2，2大于0，所以预测你会去音乐节。

如果你最近欲火焚身，并且对其它两个因素并不在意，那么我们预测你将不会去音乐节。这同样可以用我们的公式来表示。设三个权重(w1,w2,w3)是(2,7,2)，w2是7表示你有顶穿钢板的欲火。那么就有z = (x1 w1 + x2 w2 + x3 w3) + b = (0 2 + 0 7 + 1 2) + (-5) = -3。预测结果z是-3，-3小于0，所以预测你不会去，会呆在家里搞事情。

上面那个用于预测的公式被称之为逻辑回归。

损失函数

用于验证人工智能的学习成果是否正确（Loss Function）
损失函数运算后得出的结果越大，预测与实际结果偏差越大，也就是精确度不高

成本函数

成本函数用于衡量预测算法对整个训练集的预测精度
对每个样本的损失进行累加，然后求出平均值。

梯度下降

使用J(w,b)，在不断的计算中求取w与b的值。
损失函数J是一个漏斗状（凸函数），训练的目的是找到漏斗底部的一组w与b
选择函数J的原因是因为J是凸函数

梯度下降算法会不断的使得w与b接近凸函数底部，最终找到接近最小值的地方。
简化版：w’= w – r * dw （只修改了w的值用于笔录）
w’：新的w
w ：旧的w

r：学习率
学习率越高，则能越快的接近最小值，但要把握好度
若是一次让w改变太多，则可能错过最小值，从而到漏斗的另一边

dw：参数w关于损失函数J的偏导数

链式法则

假设 J=3V V=a+U
将J关于中间量V的偏导数记为dJ/dV
设置V为11，J为33
假设将V加上0.001，则V从11变成了11.001，然后看J改变了多少，J从33变成了33.003。
J的变化量除以V的变化量等于3，即变化比例等于3
即斜率，偏导数等于3
啊吧啊吧，总而言之一个公式这些偏导数的乘积，这种计算在微积分里被称为链式法则
我要传个图，给自己说懵逼了

同步Sch の 人工智能学习随笔（一）