计算机自动寻找垃圾信息共同特征
在新信息中检测是否包含垃圾信息特征内容,
判断其是否为垃圾邮件
部分特征:发件人、是否群发、网址、元、赢、微信、免费
特征信息以列为单位,行是不同人的信息,输出数据类别(如0是正常,1是垃圾),然后去寻找关系
回归:连续性数值预测
模型输出:连续型数值
(明天股价预测为:125.1)
先尝试用线性回归判断(复杂场景就不适用了)
求得一元线性回归直线方程
但如果数据样本复杂度增加,模型准确率下降明显
增加了一个x=50后,y的直线方程输出了异常的数据,如x=1时,方程判断结果=0
逻辑回归
根据数据特征,计算样本归属于某一类别的概率P(x),根据概率数值判断其所属类别
Y(x)界线明显,分类效果好!
需要画分界线,将p(x)中的x变成了函数g(x),如果g(x)>0 ,则输出方形;如果g(x)<0,则输出三角形
g(x)大于0,小于0,等于0分别对应值在圆圈外,圆圈内,圆圈上
通过以上两个复杂任务的探索,可以知道:
逻辑回归结合多项式边界函数可解决复杂的分类问题
模型求解的核心,在于寻找到合适的多项式边界函数
求损失函数J(判断预测值和实际值的偏差程度),由原来计算一元线性回归时计算预测yi值与实际y值差的平方和变成了如下图的公式,此时yi就是实际要判断出来值(不是机器预测的值),而-log(p(x))、-log(1-p(x))就是对p(x)这个预测值计算出损失函数J
P(x)就是刚刚的逻辑函数,公式为:
输出的是偏向0或1的值
如果y=1,而p(x)=1,则计算出的J=0
如果y=1,而p(x)=0(说明预测错了),则计算出的J会很大,即损失值很大
同理,对于要测出的实际值是0,如果y=0,而p(x)=1,则计算出的J=0,是符合的
如果y=0,而p(x)=1(说明预测错了),则计算出的J会很大,即损失值很大,也是符合我们的预期判断的