数据挖掘、CV、NLP、语音识别、统计学习、模式识别
套路:1.数据收集处理;2.特征选择与模型构建;3.评估与预测
站点:kaggle github
例子:工资x1、年龄x2、贷款额度y关系关系:;
预测一个值,这个值有区间。工资和年龄是特征;贷款额度是目标或者标签;
拟合一个面分割的过程;y= a+b*x1+c*x2;a偏置参数对结果影响小;bc权重参数,对结果影响大。
真实值y与预测值y'的误差;一万个样本一万个,这些误差满足:独立同分布,均值0方差为~的高斯分析。
独立即两个贷款人样本不相关。
同分布即都来同一个银行贷款。
高斯分布即贷款浮动满足正太分布,浮动不会大。
似然函数:乘积,用来根据样本数据估计参数值。
最大似然估计:似然函数越大越好----预测值成为真实值的可能性。