视频链接:https://www.bilibili.com/video/BV1Wv411h7kN?p=14&spm_id_from=pageDriver
class 不能单纯根据123来分类,会有关系远近的误导,一般采用one-hot。(单位向量)
a1/a2/a3 ×不同的weight,产生不同组的数字
对于分类,y为向量,且最后常用soft-max
yhat只有0/1 而y’是任何值,所以进行一个归一化,变成概率,且会拉远数据之间的距离,更容易分类
当只有两类时,等价于 sigmoid
最小的交叉熵等价于去最大化 likelihood(可能性 似然)
(极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数 通过实验选取参数)
(对于pytorch,其内置的cross-entropy包含了soft max)
loss时估计label与predict的距离
举例说明 cross的优点,有斜率不容易卡住