来自Amazon,google,Meta, Microsoft等的面试问题,问题很多所以对问题进行了分类整理,本文包含基础知识和数据分析相关问题
1、什么是数据科学?列出监督学习和非监督学习的区别。
数据科学是各种工具、算法和机器学习方法的混合,其目标是从原始数据中发现隐藏的模式。这与统计学家多年来一直在做的事情相似但是有什么不同?下图解释了数据分析和数据科学的区别:
监督学习和无监督学习的区别如下:
有监督学习:输入数据是有标记的,主要用于预测。例如分类和回归等
无监督学习:输入数据是没有标记的,多用于分析。密度估计和降维等
2、什么是选择偏差?
选择性偏差溯源英文为Selection Bias,指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差,也称选择性偏差为选择性效应(Selection Effect)。它是由于采集样本的方法造成的统计分析的失真。如果没有考虑到选择偏差,那么研究的一些结论可能不准确。
选择性偏差是指这样一种认知倾向:人们喜欢把事物分为典型的几个类别,然后在对事件进行概率估计时,过分强调这种典型类别的重要性,而不顾有关其他潜在可能性的证据。选择性偏差的后果势必使人们倾向于在实际上是随机的数据序列中“洞察”到某种模式,从而造成系统性的预测偏差。
3、什么是偏差-方差权衡?
偏差:偏差是由于机器学习算法过于简化而在模型中引入的错误。它会导致不适应。当你在那个时候训练你的模型时,模型会简化假设,使目标函数更容易理解。
低偏差机器学习算法有:决策树,k-NN和SVM,高偏差机器学习算法有:线性回归,逻辑回归
方差:方差是由于复杂的机器学习算法在模型中引入的误差,模型会从训练数据集学习噪声,在测试数据集上表现很差。它会导致高灵敏度和过拟合。
通常,当增加模型的复杂性时,会看到由于模型中较低的偏差而导致的误差的减少。然而,这种情况只会在特定的点发生。当模型变得更复杂时,最终会过度拟合型,因此你的模型将开始变为i高方差。
任何监督机器学习算法的目标都是具有低偏差和低方差,才能达到良好的预测性能。在机器学习中,偏见和方差之间的关系不可避免。增加偏差会减少方差。增加方差会减少偏差。
4、任意语言,编写一个程序输出从1到50的数字
打印1到50之间的数字的python代码如下-
for i in range(1,51):
print(i)
5、什么是混淆矩阵?
混淆矩阵是一个2X2表,包含由二分类器提供的4个输出。错误率、准确率、精确度、查全(召回)率等指标都由它来衡量。混淆矩阵
用于性能评估的数据集称为测试数据集。它应该包含正确的标签和预测的标签。
如果分类器的性能是完美的,预测的标签将完全相同。
但实际上模型预测的标签通常与现实场景中部分观察到的标签相匹配。
分类器预测测试数据集的所有数据实例为正或负。这产生了四种结果
真阳性(TP) -正确的阳性预测
假阳性(FP) -不正确的阳性预测
真负(TN) -正确的负预测
假阴性(FN) -错误的阴性预测
由混淆矩阵推导出的基本度量有以下概念
错误率= (FP+FN)/(P+N)
精度= (TP + TN) / (P + N)
敏感度(Sensitivity真阳性率)= TP/P
特异度(Specificity真阴性率)= TN/N
精度(阳性预测值)= TP/(TP+FP)
F-Score(精度和查全率的调和平均值)= (1+b)(PREC.REC)/(b²PREC+REC)其中b通常为0.5,1,2。
6、怎么理解真阳性率和假阳性率?
真阳性率(TPR)是真阳性与真阳性和假阴性的比率。它是实际阳性结果被测试为阳性的概率。
TPR = TP / (TP + FN)
假阳性率(FPR)是假阳性与所有阳性(真阳性和假阳性)的比率。它是虚惊一场的概率,也就是说,当它实际上是负的时候,会给出一个正的结果。
FPR= FP / (TP + FP)
完整文章
https://avoid.overfit.cn/post/fb11966065864830a1bbd5990e201f8d