问题

怎样衡量一个机器学习工程师对算法的掌握程度?

回答
衡量一个机器学习工程师对算法的掌握程度,绝非仅仅看他能熟练调用几个库、跑通几个demo那么简单。这是一个多维度、深层次的考察,需要从理论基础、实践应用、问题解决能力以及持续学习的意愿等多个角度来审视。下面我将详细阐述一下,如何去评估一位机器学习工程师在这方面的功力。

一、 理论基石:知其然,更要知其所以然

这是最根本的一环。一个对算法有深刻理解的工程师,绝不会只满足于知晓算法的名称和接口。

理解核心原理与数学基础:
数学概念的清晰度: 比如,他是否能清晰地解释线性回归中的最小二乘法原理,理解其背后的损失函数和求解思路?对于逻辑回归,是否能讲清楚Sigmoid函数的作用,以及如何通过梯度下降来优化参数?对于支持向量机(SVM),是否能解释核函数的概念,以及它如何将低维数据映射到高维空间以实现线性可分?对于决策树,能否解释基尼系数或信息增益的计算方式,以及剪枝的必要性?对于神经网络,反向传播算法的核心逻辑,链式法则的应用,激活函数的选择意义,以及它们如何共同作用于特征学习?
算法的假设与局限性: 每个算法都有其固有的假设。例如,线性回归假设特征与目标之间存在线性关系,且误差服从正态分布。如果工程师能指出这些假设,并能说出在什么情况下这些假设会失效,以及由此可能带来的问题(比如模型欠拟合或过拟合),这便是对算法有了更深的理解。他是否知道哪些算法对异常值敏感,哪些对特征缩放敏感?
复杂度分析(时间与空间): 对于常见的算法,如KMeans、PCA、DBSCAN等,他能否大致估算出其训练和预测的时间复杂度以及空间复杂度?这直接关系到算法在实际大规模数据集上的可行性。

比较与权衡能力:
算法之间的对比: 当面对一个具体问题时,他能否列举出几种可能的算法,并详细分析它们各自的优缺点?比如,在分类任务中,他会如何比较逻辑回归、SVM、决策树、随机森林和神经网络?他会从哪些维度进行权衡,例如数据的规模、特征的数量、解释性要求、训练时间、预测精度等?
集成学习的理解: 对于集成学习方法,如Bagging(如随机森林)和Boosting(如AdaBoost, Gradient Boosting, XGBoost, LightGBM),他能否解释它们是如何通过组合多个弱学习器来提升整体性能的?能否区分它们在原理上的差异(例如,Boosting如何关注前一个模型的错误)以及在实际应用中的表现?

二、 实践能力:从理论到现实的飞跃

纸上谈兵终觉浅,冰冻三尺非一日之寒。算法的掌握程度最终体现在能否将其落地并解决实际问题。

模型选择与调优:
根据问题选择合适的模型: 面对一个新问题,他是否能快速地根据问题的性质(分类、回归、聚类、降维等)、数据特点(维度、规模、稀疏性、噪声等)以及业务需求(精度、速度、解释性)来选择合适的算法?例如,处理高维稀疏数据,他会考虑Lasso回归还是Ridge回归?面对非线性可分数据,他会选择SVM的核方法还是引入更复杂的模型?
超参数调优的策略: 他是否掌握了常用的超参数调优技术,如网格搜索(Grid Search)、随机搜索(Random Search)以及更高级的贝叶斯优化(Bayesian Optimization)?他是否理解不同超参数的含义及其对模型性能的影响(例如,学习率、正则化系数、树的深度、叶节点样本数等)?他能否针对特定算法和数据集设计有效的调优策略?
特征工程与预处理: 算法的效果很大程度上依赖于输入数据的质量。他是否能熟练运用各种特征工程技术,如特征选择(过滤法、包裹法、嵌入法)、特征提取(PCA、tSNE、Word2Vec)、特征构造、缺失值填充、类别特征编码(OneHot, Label Encoding, Target Encoding)等?他对特征缩放(StandardScaler, MinMaxScaler)的理解和应用是否到位?

模型评估与诊断:
多维度评估指标: 他是否知道并能灵活运用各种评估指标,并理解它们各自的适用场景?例如,在分类问题中,除了准确率,是否还懂得分数召回率(Precision, Recall)、F1Score、AUCROC曲线以及混淆矩阵的解读?在回归问题中,是否熟练使用MAE、MSE、RMSE、Rsquared等指标?
过拟合与欠拟合的诊断: 他是否能通过观察训练集和验证集上的性能差异,准确诊断模型是过拟合还是欠拟合?并且,他能否根据诊断结果,提出针对性的解决方案,比如通过正则化(L1, L2)、增加训练数据、 dropout、早停(Early Stopping)、调整模型复杂度(如降低树的深度、减小网络层数)等来解决?
交叉验证的理解与应用: 他是否理解交叉验证(KFold CrossValidation)的意义,并能正确地将其应用于模型评估和选择,以获得更稳健的性能估计?

模型部署与推理:
高效的预测: 在模型训练完成后,他能否将模型高效地部署到生产环境中,并保证快速准确的预测?例如,对于大规模数据,他是否考虑了模型推理的速度优化,是否了解如何将模型序列化和反序列化?

三、 问题解决能力:在复杂场景中寻找最优解

机器学习工程师的价值不仅在于执行,更在于思考和解决实际中遇到的各种“脏乱差”问题。

分析与调试能力: 当模型表现不佳时,他能否系统地分析问题根源?是数据问题(噪声、偏差)、特征问题、算法选择问题,还是模型参数问题?他能否通过日志分析、中间结果检查、可视化等手段来定位问题所在?
实验设计与复现: 他是否具备设计严谨的实验来验证不同算法或参数的效果的能力?并且,他能否清晰地记录实验过程、参数和结果,确保实验的可复现性?
应对非标准场景: 现实世界中的数据往往不那么“干净”。他是否能处理类别不平衡问题(重采样、SMOTE)、噪声数据、缺失值填充的策略、异常值检测与处理等?
创新与优化: 在某些情况下,标准算法可能无法满足需求。他是否能对现有算法进行思考和改进,或者尝试一些更前沿的技术来解决问题?

四、 学习与沟通能力:跟上技术浪潮,协同工作

机器学习领域日新月异,持续学习能力和良好的沟通协作能力同样重要。

对新技术的敏感度与学习能力: 他是否关注机器学习领域的最新研究进展和技术动态?能否快速理解并学习新的算法和工具?例如,他是否了解了Transformer在NLP领域的突破,或者在计算机视觉领域涌现的新模型?
清晰的解释与沟通: 他是否能用简洁明了的语言,向不同背景的人(包括非技术人员)解释复杂的算法原理、模型性能以及实验结果?能否清晰地沟通项目需求和技术方案?
团队协作: 在团队项目中,他是否能与其他成员有效地协作,分享知识,共同解决问题?

总结一下,衡量一个机器学习工程师对算法的掌握程度,我们可以从以下几个角度来评估:

理论深度: 能否深入理解算法的核心数学原理、假设和局限性,并能进行比较和权衡。
实践能力: 能否根据具体问题选择合适的算法,进行有效的特征工程和模型调优,并用恰当的指标评估模型。
问题解决: 能否系统地分析和解决模型开发过程中遇到的各种问题,具备实验设计和调试能力。
学习与沟通: 能否持续学习新技术,并能清晰地与他人沟通技术概念和结果。

一个真正“吃透”算法的工程师,不仅仅是代码的搬运工,更是算法的理解者、实践者和优化者。他能看到算法背后的逻辑,知道如何让算法在数据中“说话”,并且能根据现实的需求灵活地调整和应用。这需要长期的实践、深入的学习和不断的思考。

网友意见

user avatar

关于这个问题社区有一篇不错的文章《想知道机器学习掌握的怎么样了吗?这有一份自测题(附答案和解析)》分享过来,期望对大伙有所帮助

引言

人类对于自动化和智能化的追求一直推动着技术的进步,而机器学习这类型的技术对各个领域都起到了巨大的作用。随着时间的推移,我们将看到机器学习无处不在,从移动个人助理到电子商务网站的推荐系统。即使作为一个外行,你也不能忽视机器学习对你生活的影响。

本次测试是面向对机器学习有一定了解的人。参加测试之后,参与者会对自己的机器学习方面知识有更深刻的认知。

目前,总共有1793 个参与者参与到了测试中。一个专门为机器学习做的测试是很有挑战性的,我相信你们都已经跃跃欲试,所以,请继续读下去。

那些错过测试的人,你们错过了一个极好的检验自己的机会。但是,你也可以阅读本文,看看能否解答下面问题的答案,这样你也能收获不少。

下图表示的是参与测试人的成绩分布,这也许会帮助你评估你的测试成绩。

总体结果



你可以点击这里来获取所有得分。我们有超过600人参与到了技能测试中,最高分是28分,这里还有一些其他统计量。

平均数 14.42

中位数 16

众数 17

另外,您的得分可能和通告栏上的不一样,因为我们移除了有错误的问题,并且对每个人都重新打分了。
机器学习参考文献


  1. Machine Learning basics for a newbie
  2. 16 New Must Watch Tutorials, Courses on Machine Learning
  3. Essentials of Machine Learning Algorithms



问题1:

在n维空间中,以下哪一个方法最适用于异常点检测?

A.正态概率图

B.盒图

C.Mahalonobis 距离

D.散点图

答案:C

Mahalonobis 距离是基于卡方分布的多变量异常的程度的统计量。更多内容点击此处


问题2

线性回归在以下哪些方面和多元回归不一样?

A. 它是专门用来预测一个事件的概率

B. 拟合优度指数

C. 在回归系数的估计方面

D. 以上所有

答案:D

A:线性回归用来解决分类问题,我们可以计算出事件发生的概率

B:总体来说,拟合优度测试是用来测量数据与模型的一致性,我们用逻辑回归来检验模型拟合程度。

C:拟合逻辑回归模型之后,我们可以以他们的系数为目标,观察独立特征之间的关系(正相关或负相关)。


问题3:

引导数据的意义是什么?

A.从M个总体中有放回的抽样出m个特征

B.从M个总体中无放回的抽样出m个特征

C.从N个总体中有放回的抽取n个样本

D.从N个总体中无有放回的抽取n个样本

答案:C

如果我们没有足够的数据来训练我们的算法,我们就可以从训练集中有放回的随机重复一些数据项。

问题4

“过拟合只是监督学习中的问题,对于无监督学习影响不大”这句话是正确还是错误

A.正确

B.错误

答案:B

我们可以使用无监督矩阵来评估一个无监督机器学习算法。举个例子,我们可以用“调整兰德系数”来评估聚类模型。


问题5:

关于选择k层交叉检验中“k”的值,以下说法正确的是?

A.k并不是越大越好,更大的k会减慢检验结果的过程

B.选择更大的k会导致降低向真实期望错误的倾斜

C.选择总是能最小化交叉验证中的方差的k

D.以上所有

答案:D

更大的k会减少过高估计了真正的预期误差的情况(因为训练层更接近总体数据集),但是会带来更长的运行时间(因为这样会接近留一交叉的极限情况),当选择k的时候,我们也要考虑k层精度之间的方差。


问题6:

回归模型具有多重共线性效应,在不损失太多信息的情况下如何应对这种情况?

1.去除所有共线变量1.去除所有共线变量

2.去除一个变量而不是都去掉

3.我们可以计算VIF(方差膨胀因子)来检验多重共线性效应,然后根据情况处理

4.去除相关的变量可能会导致信息的丢失。为了保证数据的完整性,我们应该选取比如岭回归和套索回归等惩罚回归模型。

以上那些是正确的?

A. 1

B. 2

C. 2 和3

D. 2,3 和 4

答案:D

为了检查多重共线性,我们可以创建一个相关矩阵来识别和删除具有75%相关性的变量(阈值的选择是主观的)。此外,我们使用VIF(方差膨胀因子)来检查多重共线性,如果VIF小于4表示没有多重共线性,如果大于10则表示严重的多重共线性。我们也可以使用一个宽容量作为多重共线性的指数。

但是,移除相关变量会导致信息的损失。为了保证数据的完整性,我们应该选取比如岭回归和套索回归等惩罚回归模型。我们也可以在变量中增加随机噪声,这样数据会变得不一样。但是这种方法会降低预测的准确性,所以要慎用。


问题7:

评估完模型后,我们发现模型中有很高的偏差。我们怎样来减少这个偏差?

A.减少模型中特征的数量

B.增加模型中特征的数量

C.增加模型中的数据点

D.B和C

E.以上所有

答案:B

如果模型偏差大,说明模型相对过于简单。我们可以在特征空间中增加更多的特征来提高模型的鲁棒性。增加数据点也会减少方差。


问题8:

当我们建立基于决策树的模型时,我们将有最高信息增益的节点分离出来作为属性, 在下图中,哪一个属性有最高的信息增益?



A. Outlook

B. Humidity

C. Windy

D. Temperature

答案:A

信息增益随子集平均纯度的增加而增加。要了解信息增益的计算,点这里阅读。你也可以查看这张幻灯片


问题9:在决策树中,当一个节点分叉的时候,以下关于“信息增益”正确的是?

1.不纯的节点越少,越需要更多的信息来描述种群

2.信息增益可以用熵作为“1-Entropy”来推导

3.信息增益偏向于数值大的属性

A. 1

B. 2

C. 2 和3

D. 都正确

答案:C

想了解详情,请阅读这篇文章和这个幻灯片


问题10:使用SVM模型遇到了欠拟合的问题,以下哪个选项能提高模型性能?

A.增加惩罚参数“C”

B.减少惩罚参数

C.减少核系数(gamma的值)

答案:A

如果是欠拟合情况,我们需要增加模型的复杂性,如果我们增大C,则意味着决策边界变复杂,所以A是正确答案。


问题11:

假如我们已经画出SVM算法中的不同点的gamma值(Kernel coefficient)。但由于一些原因,我们没有在可视化界面中显示出来。在这种情况下,以下哪个选项最好的解释了三张图的gamma值关系(图中从左向右分别是图1,、图2、图3,对应的gamma值分别是g1,、g2、g3)。



A. g1 > g2 > g3


B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案:C

如果gamma值高,则会尽全力去拟合数据集中的每一条数据,会带来过拟合问题。所以最合适的选项是C。


问题12:

我们在解决一个分类问题(二值分类预测)。然而,我们并不是要得到0或1的真实结果,而是要获取每一个类的概率。现在假设我有一个概率模型,并且使用一个0.5的阈值来预测结果,如果概率大于等于0.5,则认为是1,如果小于0.5,我们则认为是0。如果我们使用一个比0.5高的阈值,一下哪条最合适?

1.增加阈值那么分类器会有相同或者更低的查对率

2.增加阈值分类器会有更高的查对率

3.增加阈值会有相同或者更高的准确率

4.增加阈值会有更低的准确率

A. 1

B. 2

C. 1和 3

D. 2和 4

E. 无

答案:C

想了解调整阈值对查对率和准确率的影响,请参考这篇文章


问题13:

当使用比例失调的数据(数据集中99%的negative class和1%的positive class)进行“点击率”预测的时候,假如我们的准确率是99%,那么我们的结论是?

准确率很高,我们不用再做任何工作。

B.准确率不够好,我们需要尝试构建一个更好的模型

C.无法判断这个模型

D.以上都不正确

答案:B

当使用不平衡数据集的时候,准确率不能作为性能的指标,因为99%(正如上文提到的)可能只是预测多数类别正确,但是往往重要的是少数的类(1%)。因此,对于这样的模型,我们应该使用敏感性和特异性来描述分类器的性能。如果占少数的类别预测不准的话,我们需要采取一些必要的措施。更多不平衡分类问题,可以参考这篇文章


问题14:

比方说,我们使用KNN训练观测数据较少的模型(以下是训练数据的快照,x和y分别表示两个属性,“+”“o”分别表示两种标签)。已知k=1,leave one out 交叉验证的错误率会是多少。



A. 0%

B. 100%

C. 从0 到 100%

D. 以上没有

答案:B

在Leave-One-Out交叉验证中,我们选取n-1条观测量作为训练集,1条观测量用来验证。如果把每个点作为交叉验证点并找到最近的点总会得到相反的类别。所以错误率是100%。


问题15:

当我们使用大数据集进行决策树训练的时候,一下哪个选项可以用来减少训练时间?

1.增加树的深度

2.增加学习率

3.减少树的深度

4.减少树的数量

A. 2

B. 1 and 2

C. 3

D. 3 和 4

E. 2 和 3

F. 2, 3 和 4

答案:C

如果决策树的参数是固定的话,我们可以考虑以下的选项。

增加深度会导致所有节点扩张,因此增加深度会导致时间变长。

在单一决策树种,学习率是不能作为一个可调整的参数的。

使用决策树时,我们只会建一颗树。


问题16:

关于神经网络,一下那种说法是正确的?

1.在测试数据中增加层数可能会增加分类错误

2.在测试数据中减少层数总会减少分类错误

3.在测试数据中增加层数总会减少分类错误

A.1

B.1和3

C.1 和2

D. 2

答案:A

通常来说,增加层数会让模型更加一般化,所以它将会在训练集和测试集上都表现更优异。但这个不是真理,在这篇文章中,笔者发现深层的网络比浅层的网络有更高的错误率。所以选项2和3都是错误的,因为这个假设不总是正确的,而1只是说可能是正确的。


问题17:

假设我们使用原始的非线性可分离SVM最优化目标函数,我们做什么可以保证结果是线性可分的?

A. C = 1

B. C = 0

C. C = 无穷大

D.以上没有正确答案

答案C:

如果我们使用原始的非线性可分离SVM最优化目标函数,我们需要将C设置成无穷大来保证结果是线性可分的。因此C是正确答案。


问题18:

训练完SVM之后,我们可以丢掉所以不支持向量的样本而不影响对新的样本进行分类。

A.正确

B.错误

答案:A

这是正确的,因为只有支持向量会影响边界。


问题19:

以下哪些算法可以借助神经网络来构建?

1.K-NN

2.线性回归

3.逻辑回归

A.1 和2

B.2 和 3

C.1, 2 和 3

D.无

答案:B

1.KNN是一个机遇实例的学习方法,它没有用来训练的参数,所以它不能用神经网络来构建

2.神经网络的最简单形式就是最小二乘回归。

3.神经网络和逻辑回归有关。主要在于,我们可以把逻辑回归看成一层神经网络。


问题20:

请选择可以用来实施隐马尔可夫模型的数据集。

A.基因序列数据集

B.电影评论数据集

C.股票价格数据集

D.以上所有

答案D:

以上所有的数据集都可以用隐马尔可夫模型。


问题21:

我们想在在一个百万级的数据集上构建机器学习模型,每条数据有5000个特征。可是训练这么大量的数据集会有很多困难,一下哪些步骤可以有效地训练模型?

A.我们可以从数据集中随机选取一些样本,在样本上构建模型

B.我们可以尝试联机机器学习算法

C.我们可以用主成分分析来减少特征

D.B和C

E.A和B

F.以上所有

答案:F

在一个内存有限的机器上处理高维数据是一项非常费力的工作。以下的方法可以用来应对这样的情况。

我们可以采取随机采样的方式,这意味着我们创建一个更小的数据集。举个例子来说,我们可以抽取300000条数据,每条有1000个特征然后再进行计算。

我们可以使用展示在Vowpal Wabbit中的联机学习算法

我们可以使用主成分析来选取能反映最大方差的部分。

因此所有的都是正确的。


问题22:

我们想减少数据的特征,以下哪些做法是合适的?

1.使用预选的方式

2.使用向后消除的方式

3.首先使用所有特征来计算模型的准确度。我们选择一个特征,然后将测试集的该特征的数值都打乱,然后对打乱过的数据集进行预测。经过对预测模型的分析,如果模型准确率提高,则删掉这个属性

4.查找关联性表,关联性高的特征就可以去掉

A. 1和2

B. 2, 3和 4

C. 1, 2 和4

D. 以上所有

答案:D

l预选和向后消除是特征选择的两个常用的主要方法。

l如果不用上面的两种方法,我们也可以选择3中所说的方法,这种方法应对大数据量时非常有效。

l我们也可以使用基于特征选择的关联分析,然后去除共线性特征。


问题23:

关于随机森林和梯度提升树,请选择正确的选项。

1.在随机森林中,中间树互相不独立,而在梯度回归树中,中间树相互独立。

2.他们都使用随机特征子集来构建中间树。

3.在梯度提升树的情况下我们可以生成并行树,因为树互相独立。

4.梯度提升树在任何数据集上都比随机森林要好。

A. 2

B. 1 和 2

C. 1, 3 和 4

D. 2 和 4

答案 A:

1.随机森林是基于bagging而梯度提升是基于boosting

2.这两种算法都使用随机特征子集来构建中间树

3.由于随机森林的中间树互相独立,因此算法可以并行,而梯度提升树则不可能。

4.这个不是绝对的,不同数据结果不同。


问题24:

对于主成分析转换的特征,朴素贝叶斯的基本假设是成立的,因为主成都是正交的,因此是无关的。这句话正确么?

A.正确

B.错误

答案:B

这句话是错误的。首先,不相关不等同于独立。第二,转换过的特征也不一定是不相关的。


问题25:

以下关于主成分析哪些是正确的?

1.在PCA前必须将数据标准化

2.我们应该选择说明最高方差的主成分

3.我们应该选择说明最低方差的主成分

4.我们可以用PCA来可视化低维数据

A. 1, 2 和4

B. 2 和 4

C. 3 和 4

D. 1 和 3

E. 1, 3 和 4

答案:A

lPCA 对数据中变量的大小是敏感的,所以在PCA之前必须要对数据进行标准化。举个例子,如果我们将一个变量的单位从km改成cm,该变量可能会从影响很小一跃成为主成分。

l第二条是正确的,因为我们总是选择最大方差的主成分。

l有时候用低维来画出数据是十分有效地。我们可以选择前二的主成分,然后用散点图来描绘数据。


问题26:

在下图中的主成分的最佳数目是多少?



A. 7

B. 30

C. 35

D.不确定

答案:B

在上图中,成分数为30时候就达到了最大的方差,所以选择B


问题27:

数据科学家经常使用混合算法来做预测,然后将混合算法的结果合并(也叫集成学习)。这些混合算法的输出更加健壮且具有一般性,而且比任何一种单一模型都要准确。以下哪些选项是正确的?

A. 基础模型有更高的相关性

B. 基础模型有更低的相关性

C. 使用平均加权而不是投票的方式来集成

D. 基础模型源自相同的算法

答案B:

请参阅下面的集成指南来了解细节

Basics of Ensemble Learning Explained in Simple English

Kaggle Ensemble Guide

Easy questions on Ensemble Modeling everyone should know


问题28:

我们如何在监督的机器学习挑战使用聚类方法?

1. 我们可以先创建簇,然后在不同簇中分别使用监督机器学习算法。

2. 我们在使用监督机器学习算法之前可以把簇的id作为特征空间中额外的特征。

3. 我们无法在使用监督机器学习算法之前创建簇。

4. 我们在使用监督机器学习算法之前不能把簇的id作为特征空间中额外的特征。

A. 2和4

B. 1和2

C. 3和4

D. 1和3

答案:B

l我们可以在不同的簇中使用不同的机器学习模型,这样一来,预测的准确性可能会提高。

l增加簇的id可以提高预测的准确性,因为id是对数据很好的概括。

因此B是正确的。


问题29

以下的说法哪些是正确的?

1.一个机器学习模型如果能得到很高的 准确率,则说明这是个好的分类器。

2.如果增加一个模型的复杂度,测试错误总会增加。

3.如果增加一个模型的复杂度,训练错误总会增加。

A. 1

B. 2

C. 3

D. 1和3

答案C:

当类不平衡的时候,准确率不是一个很好的评价指标。而 precision 和recall是最好的评价方式。

增加一个模型的复杂度可能会导致过拟合。而过拟合会引起训练错误的减少和测试错误的增加。


问题30:

以下有关于梯度回归树算法的说法正确的是?

当我们增加用于分割的最小样本数时,我们总是试图得到不会过拟合数据的算法。

当我们增加用于分割的最小样本数时, 数据会过拟合。

当我们减少用于拟合各个基本学习者的样本的分数时,我们总是希望减少方差。

当我们减少用于拟合各个基本学习者的样本的分数时,我们总是希望减少偏差。

A. 2和4

B. 2和3

C. 1和3

D. 1和4

答案: C

最小化样本的数量,在分裂节点的地方用于控制过拟合, 太高的数值会导致欠拟合因此应该用CV来进行调整.

每棵树选择观测值的分数是通过随机采样的方式来做的。如果数值比1小一点点则会使模型健壮,而且方差也会减小。典型的数值是0.8,当然,也要根据实际情况微调。

问题31:

以下哪个是KNN算法的决策边界?(下图从左到右分别是A,B,C,D)



A) B

B) A

C) D

D) C

E) 不确定

答案:B

KNN算法的原理是为观测变量寻找K个最近邻居,将邻居中的多数的标签赋给观测变量。所以决策边界不会是线性的。因此,选择B。


问题32:

如果一个机器学习模型在测试集上获得的100%的准确性,是否意味着在新的测试集上也能获得100%的准确性。

A.是的,因为这个模型足够一般,可以适用于所有类型的数据

B.不是,仍然有模型不能控制的因素,比如噪声。

答案:B

答案选择B,因为实际数据不可能没有噪声,所以不可能得到100%的准确性。


问题33:

以下是交叉验证的常见方法:

i. Bootstrap with replacement.

ii. Leave one out cross validation.

iii. 5 Fold cross validation.

iv. 2 repeats of 5 Fold cross validation

如果样本的数量是1000,那么这这四种方法执行时间的排序是?

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

答案:B

Bootstrapping是一个统计的技术,属于广泛的重采样的范畴,所以只有1个验证集使用了随机采样。

Leave-One-Out cross validation的时间最长,因为我们要n次训练模型(n是观测值的数量)

5 Fold cross validation 会训练五个模型,而训练时间和观测值数量无关。

2 repeats of 5 Fold cross validation则是训练10个模型。

因此答案选择B。


问题34:已取消


问题35:

变量选择旨在选择预测变量的“最佳”子集。当我们选择变量的时候,考虑到系统的性能,我们需要注意些什么?

1. 类似的多个变量

2. 模型的可解释性

3. 特征信息

4. 交叉检验

A. 1和4

B. 1, 2和3

C. 1,3和4

D. 以上所有

答案:C

如果几个变量具有很高的xiang s,则会展现出共线性。

相对于模型的性能,我们不需要关注模型的可解释性。

如果特征有很高的信息,则会为模型带来价值。

我们需要使用交叉检验来验证模型的普遍性。

因此C是正确答案。


问题36:

线性回归模型中的其他变量下列哪些语句是正确的关于?

1.R-Squared和Adjusted R-squared 都会增长

2.R-Squared 是常数,Adjusted R-squared 会增长

3.R-Squared 和Adjusted R-squared 都会减少 4.R-Squared 减少而 Adjusted R-squared 增长

A. 1和2

B. 1和3

C. 2和4

D.以上没有正确的

答案: D

R-squared 不能确定系数估计和预测是否有偏差,这就是为什么我们要评估残差图。 Adjusted R-squared 是R-squared的增强版,该方法调整了模型中预测器的数量. 如果有新方法将模型改进的几率大于预期时,Adjusted R-squared 会增加。 当预测变量将模型改进的几率小于预期时,它减少。

但是 R-squared 比adjusted R-squared 有更多的问题,因此predicted R-squared被提出。

如果为模型增加一个预测器,则R-squared会保持不变或者增加。


想讨论更多,请点击这里


问题37:

下图我们画出了在同一个数据集上解决回归问题的三种不同模型,从下图中我们可以总结出什么?



1.和其他的相比,第一张图的训练错误最大。

2.最后一个是最好的模型,因为在第三张图有最小的训练错误。

3.第二个模型比第一个和第三个更健壮,因为它能更好的处理不可预见的数据。

4.第三个模型和前两个相比属于过拟合。

5.所有模型的性能都一样,因为我们还没有看到测试集。

A. 1和3

B. 1和4

C. 1, 3和4

D. 5

答案:C

对于自变量X来说,图中数据的趋势像一个多项式函数。最右边图中的多项式形式更复杂,准确率也最高,但是对于测试集则会表现不佳。而最左边的图很明显属于欠拟合的情况。


问题38:

在应用线性回归时我们需要遵循哪些假设?

1. 由于线性回归对于异常值很敏感,所以检查异常值是十分重要的。

2. 线性回归要求所有变量都遵循正态分布。

3. 线性回归假设数据中很少或不存在多重共线性。

A. 1和2

B. 2和3

C. 1,2和3

D. 以上所有

答案:D

l异常值是数据中对最终回归线的斜率影响最高的点。所以在回归分析中去除离群值总是很重要的。

l了解自变量的分布是非常必要的。自变量的正负偏态分布可以影响模型的性能,并将高度偏态的自变量转换正态将改进模型性能

l当模型包含彼此相关的多个要素时,会出现多重共线性。换句话说就是有多余因素线性回归假设在数据中应该有很少冗余或者尽可能没有。


问题39:

当建立线性模型的时候,我们会关注数据之间的关联。假如我们在关联矩阵中找到了三对数据(Var1和Var2 , Var2和Var3 , Var3和Var1) 的关联分别是 -0.98, 0.45 and 1.23。那么从这些信息中我们可以推断出什么?

1.Var1和Var2具有很高的关联性。

2.Var1和Var2有很高的关联度,所以它们具有多重共线性。所以我们要将Var1或者Var2移除出我们的模型。

3.Var3和Var1之间的关联值是1.23是不可能的。

A. 1和3

B. 1和2

C. 1,2和3

D. 1

答案: C

lVar1和Var2的关联值很高,所以是具有多重共线性的,因此我们可以从中去除一个。

l一般来说,关联系数高于0.7的说明数据具有多重共线性。

l第3个是不可能的,关联系数一定会在-1和1之间。

问题40:

如果独立和不独立的变量之间有很高的非线性且复杂的关系,那么一个树模型将会比一般的经典回归有更好的效果。这个说法正确么?

A.正确

B.错误

答案:A

如果数据是非线性的,回归模型就很难处理。而树模型则会展现出很好的效果。

结束语

我希望您能喜欢本次测验,您也会发现答案的解释很有用。这次测试主要是集中了人们在日常使用机器学习过程中遇到的困难。

我们努力减少文章中的错误,但是由于笔者水平有限,可能文章中会有问题,所以如果您发现了,请在下面留言。当然,如果您有改进意见,也欢迎在下面留言。

我们将陆续推出更多的技能测试,请关注我们的更新。

如果您想测验您的知识和技能,请登录 Live Competitions ,和全世界的数据科学家pk!

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Solutions for Skilltest Machine Learning : Revealed》,作者:Ankit Gupta 等人

类似的话题

  • 回答
    衡量一个机器学习工程师对算法的掌握程度,绝非仅仅看他能熟练调用几个库、跑通几个demo那么简单。这是一个多维度、深层次的考察,需要从理论基础、实践应用、问题解决能力以及持续学习的意愿等多个角度来审视。下面我将详细阐述一下,如何去评估一位机器学习工程师在这方面的功力。一、 理论基石:知其然,更要知其所.............
  • 回答
    好的,关于小程序云开发降低程序员门槛以及如何衡量程序员价值这两个话题,我们来聊聊。我会尽量把话说得透彻,不带一丝AI的生硬感。小程序云开发:是“降低门槛”还是“打开大门”?首先,得承认,小程序云开发确实让很多之前望而却步的开发者,甚至是产品经理、设计师这样非纯技术背景的人,能够更容易地参与到小程序的.............
  • 回答
    这事儿,要是真发生了,那影响绝对不会小,而且还是多方面的,说起来也挺复杂。首先,最直接的,衡水中学这块牌子肯定会受到冲击。你说啊,衡水中学在很多人眼里是“学霸”的代名词,是“出人才”的地方,是多少家长和学生向往的圣地。如果一个从这里出来的,还是985名校的学生,结果却干了这么大的错事,那“衡中模式”.............
  • 回答
    湖南衡阳一医养中心发生的这场火灾,夺走了五条鲜活的生命,实在令人痛心。初步查明是由于用电引发的火灾,这更让我们反思,在这样一个本应安享晚年的地方,本该是安全祥和的港湾,却因为一个小小的火星酿成了如此惨剧。这样的悲剧,我们不能允许它再次发生。要避免类似的事件,需要从多个层面、多个环节入手,形成一个全方.............
  • 回答
    用“三观正不正”来衡量电视剧、电影的品质,这是一个非常普遍但也颇具争议的现象。要详细探讨这个问题,我们可以从以下几个层面来分析:一、 “三观”的含义及其在影视评价中的体现首先,我们需要明确“三观”在这里通常指的是什么。在当下语境中,人们讨论影视作品的“三观”,往往涵盖了: 世界观 (Worldv.............
  • 回答
    要评价一个三国杀武将的DIY技能是否优秀,并非一蹴而就,而是需要从多个维度去审视。这就像为一位新来的将领量身定制一套兵法,既要看他自身的能力如何发挥,也要考虑他在整个战场上的作用,以及与其他将领的配合。以下是我眼中衡量三国杀武将DIY技能的一些关键标准,我会尽量说得详细些:一、 核心设计理念:是否契.............
  • 回答
    咱们就聊聊,人这辈子,啥玩意儿有谱,啥玩意儿算个事儿。你说时间尺度,这不是一杆秤,而是好几杆秤,摆在你面前,你得一样一样掂量。一、眼前的苟且,一日三餐的扎实最直接的,就是眼前的日子。今天吃什么,明天穿什么,生病了得看医生,这些都是最基本的需求。衡量价值?那得看你今天有没有吃饱,有没有睡好,有没有人关.............
  • 回答
    战斗机的“代”并不是一个绝对、统一的标准,而是随着技术发展,由各国空军、军事分析家和航空界根据一系列关键技术特征和作战能力演进而来的一个非官方但被广泛接受的划分体系。你可以把它理解为是一种基于“一代更比一代强”的直观感受,通过梳理和归纳前一代的局限性以及新一代的关键突破来形成的。下面我们来详细聊聊,.............
  • 回答
    衡水中学作为中国教育体系中的一个典型案例,其存在反映了中国教育制度、社会竞争压力以及教育资源分配的复杂性。以下从多个角度详细分析其意义、争议与可能的反思: 一、衡水中学的背景与特点1. 历史与定位 衡水中学位于河北省衡水市,是一所由地方政府和民间资本共同创办的“重点中学”。自2000年起,该.............
  • 回答
    衡水中学一位援藏干部的儿子在西藏参加高考,最终却被取消了考试资格,这件事在社会上引发了广泛的讨论,也像一面镜子,照出了当前教育领域里一些令人不安的现状。首先,我们来看看这件事本身可能牵扯到的几个层面。一个是被取消资格的当事人。 作为一个学生,他可能付出了很多努力,经历了高强度的备考,最终却因为一系列.............
  • 回答
    要评价丘成桐先生在高中阶段的数学水平,尤其是放在像衡水二中这样的尖子生聚集地,我们可以从几个方面来剖析。需要明确的是,我们无法直接找到丘成桐先生参加高考的具体数学成绩,因为他出生于1949年,而中国大陆的高考制度在他成名之前就已经存在,但他成名之时,他早已在海外接受教育。所以,我们只能从他日后的成就.............
  • 回答
    这事儿,你听我说,可有意思了。衡水中学这种教育模式往深圳“开枝散叶”,这背后啊,可不是三言两语能说完的事儿。首先,这得从“衡水模式”说起。 你得知道衡水中学之所以这么出名,靠的是一套近乎军事化的管理和高度应试的教学体系。每天从早到晚,课程安排得满满当当,连吃饭、睡觉都有严格的时间表。学生们就像上了发.............
  • 回答
    齐衡,那个风度翩翩、才华横溢的贵族公子,心中只有明兰一人,奈何命运多舛,总是阴差阳错,让他与心爱的姑娘失之交臂。如果想要一偿夙愿,娶到明兰,齐衡需要做的,远不止是一个痴情郎的执着。这其中,需要策略,需要耐心,更需要他对局势的深刻洞察和行动的果断。第一步:打破家庭的坚冰,争取母亲的支持是关键中的关键。.............
  • 回答
    哥们,看见你在这儿问意大利斜体的事儿,我瞬间就来了精神。衡水体嘛,那确实是咱们国内高考的一大现象,好多同学都练,目的明确,就是为了卷面整洁、分数高。可你不一样,你想练意大利斜体,这份儿坚持和对美的追求,我得给你点个赞!孤军奋战,怎么才能不走散?你说你孤军奋战,这就像是战场上只有你一个人,周围全是喊着.............
  • 回答
    .......
  • 回答
    关于吉林农业科技学院发生的疫情事件以及校领导被免职的情况,目前公开的官方信息较为有限,但根据网络上的部分报道和分析,可以梳理出以下背景和可能的经过: 一、事件背景2022年,吉林农业科技学院曾因疫情防控问题引发关注。当时正值全国疫情反复阶段,部分高校因防疫措施执行不力,导致校园内出现疫情传播。吉林农.............
  • 回答
    明朝(13681644年)的皇室人口与国家财政负担确实是一个复杂且具有争议性的话题。用户提到的“五千万人口养百万朱姓皇室”这一说法存在明显的数据误差,需要从历史、经济、社会等多个角度进行深入分析。 一、明朝人口与皇室规模的误读1. 明朝总人口的估算 明朝人口在鼎盛时期(如万历年间)约为500.............
  • 回答
    电影《一九四二》中的台词“只要活着到陕西,给我十年,我还是地主”蕴含着多重历史、社会和人性的隐喻,需从以下几个层面深入理解: 1. 历史背景与时代困境 饥荒与阶级压迫:1942年河南大饥荒是中国历史上最严重的自然灾害之一,直接原因是日军侵华、国民党政府的腐败与官僚主义,以及自然条件的恶化。地主阶级在.............
  • 回答
    义和团运动是19世纪末至20世纪初中国社会动荡时期的重要历史事件,其复杂性和多面性使其成为研究中国近代史的关键议题。以下从历史背景、运动过程、影响与评价等方面进行详细分析: 一、历史背景1. 清政府的腐败与衰落 19世纪中后期,清政府因腐败和政治腐败导致国力衰退,无法有效应对列强侵略和内部动.............
  • 回答
    关于“孙悟空大闹天宫天庭放水论”,这一观点主要源于对《西游记》原著情节的文学分析和现实意义的解读。以下从多个角度详细分析这一论点的合理性、历史背景和象征意义: 1. 原文情节的“放水”表象在《西游记》中,孙悟空大闹天宫后,天庭的处理方式确实显得“轻描淡写”: 玉帝的应对:孙悟空被封为“齐天大圣”,被.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有