机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测
数据
模型
预测
结构:特征值+目标值
对于每一类数据我们可以称之为样本
有些数据集可以没有目标值
目标值:类别->分类问题
目标值:连续性数据->回归问题
目标值:无->无监督学习
监督学习(预测)
定义:输入数据是由输入特征值和目标值组成。函数的输出可以是一个连续的值(称为回归),或是输出是有有限个离散值(称为分类)
分类 :k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
回归 :线性回归、岭回归
无监督学习
定义:输入数据是由输入特征值组成
类聚 K-means
获取数据
数据处理
特征工程
选择机器学习算法 得到模型
模型评估
应用
一些概念:
算法是核心,数据和计算是基础
找准定位
大部分复杂模型的算法都是算法工程师在做
分析数据
分析具体业务
应用常见算法
特征工程、调参数、优化