计算机无需明确编程即可学习的研究领域。机器学习的研究旨在让计算机学会学习,能够模拟人类的学习行为,建立学习能力,实现识别和判断。机器学习使用算法来解析海量数据,从中找出规律,并完成学习,用学习出来的思维模型对真实事件做出决策和预测。这种方式也称为“训练”。
监督学习:给予学习算法示例,即确定的输入、输出,使计算机通过这种学习算法对全新的输入预测其正确输出。
无监督学习:数据集只给输入而不给输出,让算法自己从中发现规律并对新的输入预测其正确输出。
训练集:用于训练模型的数据集;
x:输入,也称为特征;
y:输出,也称为真实标签;
(x,y):每一对x、y称为一个训练样本;
m:训练样本设为总数;
(x(i),y(i)):上标i表示训练集的第i行,即第i个训练样本;
f:假设函数,训练模型用于接收输入变量并产生预测的函数;
例如,单变量线性回归模型中,f(x) = wx + b,其中w、b称为参数或权重;
y-hat:预测值,f(x(i)) = y-hat(i);
J(w,b):成本函数或代价函数,计算预测值与真实值之间误差大小的函数
上图为回归模型中最常用的代价函数。