1. 请列举你所学习过一些机器学习的算法?简要描述下其原理。
2. 请分析下K近邻算法的优缺点?
3. 自然语言典型的文本预处理步聚。
4. 数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?
监督学习和无监督学习的定义是什么?
分别从监督类学习和无监督类学习中找一类算法的实例应用进行举例说明。
5. 用文字的形式描述K-Means算法的过程?
6. 你对于人工智能的未来怎么看?请谈谈它可能对人类社会造成哪些利弊?
1. **请列举你所学习过一些机器学习的算法?简要描述下其原理。**
监督学习和无监督学习。
监督学习:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。
无监督学习:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值所组成。
2. **请分析下K近邻算法的优缺点?**
优点:简单,易于理解,易于实现,无需估计参数,无需训练
缺点:每次分类都会进行一次全局计算,数据量大时,计算开销大;必须指定K值,K值选择不当则分类精度不能保证;样本不均衡,预测偏差比较大
3. **自然语言典型的文本预处理步聚。**
词条化,既形态学分割
词干提取,是将不同词形的单词还原成其原型
词型归一,和词干还原的目的一样,都是将单词的不同词性转换为其原型
词性标注,既给定一个句子,确定每个单词的词性,例如,英语中“book”可以是名词或动词
4. **数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?**
**监督学习和无监督学习的定义是什么?**
**分别从监督类学习和无监督类学习中找一类算法的实例应用进行举例说明。**
(1)监督学习:预测
无监督学习:描述
(2)监督学习:从标记的训练数据来推断一个功能的机器学习任务
无监督学习:根据类别未知(没有标记)的训练样本解决模式识别中的各种问题。
(3)监督学习举例:分类算法,利用分类算法进行垃圾电子邮件的分类。
无监督学习举例:聚类算法。利用聚类算法,如网购平台,通过用户购物喜好等进行聚类,即客户群体的划分
5. **用文字的形式描述K-Means算法的过程?**
(1)从一系列数据D中任意选择K个对象作为初始簇的中心
(2)根据数据到聚类中心的距离,对每个对象进行分配
(3)更新聚类中心位置,即计算每个簇中所有对象的质心,将聚类中心移动到质心位置 (1分)
(4)重复过程2、3
(5)直到聚类中心不再发生变化
6. **你对于人工智能的未来怎么看?请谈谈它可能对人类社会造成哪些利弊?**