通过计算的手段,利用经验来改善系统自身的性能
数据集100个瓜
样本 拿出来1个瓜
特征向量
得到模型的过程:学习和训练
训练过程:训练数据,训练样本,训练集,假设,学习器
监督学习(我们知道怎么分
分类与回归模型
预测值——离散值 分类
——连续值 回归
无监督学习(不知道,让机器干
聚类
预测:测试,测试样本,泛化能力
归纳 从特殊到一般 从训练数据中得到概念/从样本中学习
演绎 从一般到特殊
问同一数据集训练出了不同的模型的选择
特征选择
有原则 最常用的奥卡姆剃刀 选最简单的那个≈选择最接近问题本质的东西
学会克服数学恐惧**
面对数学符号,复杂公式,学会理解,熟练了会发现只是表示和过去所学的有差距,学会习惯
经验误差和过拟合
错误率E(error 这里不是期望值
精确度acc (1-E
条件判断 符合得1,否得0.再求和
混淆矩阵,查准率,查全率**概念比较绕
评估方法:训练集测试集验证集
测试集分割留出法
k折交叉验证
分割自助法
验证集
均方误差
PR关系,P-R曲线,反向关系,F1,Fβ
ROC曲线AUC示意图
代价敏感错误率代价曲线**
比较检验**
假设检验 二项分布
交叉验证t检验
后面各种英文检验
偏差和方差