y=wx+b,w是矩阵,x是矩阵(数据),b是偏置项(与输出挂钩),每个w都有自己对应的偏置
[ w w w w w ... w w w
w w w w w ... w w w
...
w w w w w ... w w w]
[ x
x
..
x ]
[ b
b
b ]
损失函数衡量当前权重参数有多差,正确类别至少比错误类别多1才是没有损失的
隐层可以理解为衍生出更多的特征