为什么85%的数据科学项目失败
在阅读之前,这里有一个快速声明。除了我提到的统计信息外,其余内容只是我的个人看法。请谨慎对待。否则,希望您能享受阅读!
数据科学项目的失败率是一个众所周知的挑战。根据Gartner,超过85%的数据科学项目失败。
Dimensional Research 发布的一份报告显示,只有4%的公司成功地将机器学习模型部署到了生产环境中。我最近发现,Kaggle竞赛中的最佳结果并不总是能转化为实际应用的效果。
在最近我参加的一次竞赛中,获胜者通过将互联网上的真实世界数据整合到提供的数据集中作弊。任务是根据历史数据预测从2024年5月22日到2024年6月4日这一周的美元-奈拉汇率。这位不愿透露姓名的获胜者在那些日期到来后,收集了真实世界的数据,将其整合到训练集中,并基于更新后的数据集构建了滞后特征(7个滞后)和多步目标(13个步骤)。
这是明显的作弊;当然,他会赢得比赛。你怎么能用真实世界的数据来训练你的模型、预测真实世界的结果,然后又故意不提这一点呢?你不应该用实际的未来数据来训练你的模型,去预测同样的未来数据。你是不是时间旅行者啊?我一点也 不佩服😤。我其实一直关注他的工作,所以现在很心痛。阅读他的解决方案,如果你觉得我在夸大其词。如果你要作弊,就大大方方地作弊。
至于第二名的获奖者,他之所以能获得这个位置,唯一的原因是他是在Kaggle上训练了他的模型。Kaggle上的模型是民主化的,所以这并不算什么。他可能只是在平台上尝试了不同的随机种子,直到超过了最佳分数。这是他的解决方案。
他甚至自己也承认了。至少他的方法比第一个更实际。他值得获胜;可惜他没有作弊。
这并不是说我们应该开始欺骗自己。“敌不过就加入他们”在这种情况下并不适用。Kaggle竞赛和其他大多数数据科学竞赛的主要问题在于,它们经常跳过了任何数据科学项目中最关键的部分:获取和清洗数据集。通过我的深入研究,我发现,在现实世界中,建模并没有那么重要。让我解释一下。
在实际场景中,一旦公司有了清洗过的数据集,他们只需将其输入到一个自动机器学习系统中,该系统就会为该数据集生成最佳模型。此外,大多数现实世界的问题都涉及分类和回归,对于这些问题,梯度提升模型被广泛认为是最好的模型。如果你对此有所怀疑,可以查证一下!
抱歉用词不当,但当我们已经知道哪些模型最适合食品需求预测等问题时,为什么还要做研究来确定哪些模型更好呢?这就像在跑步机上跑步一样,完全无用的研究。相信我,那些声称“证明”相反的论文,它们的数据集是特意收集的,甚至对数据集进行了操纵,并展示特定的可视化结果,以强化他们预先设定的偏见。大多数这些项目在实际生活中根本无法应用。
我最近实现了一篇证明我观点的研究论文。我推荐你看看这篇文章。研究人员创建了许多基于目标变量的特征;我的意思是,当然,从目标变量衍生出来的变量与目标变量会有很高的相关性。
这非常作弊,因为在预测未见过的数据时,这些特征是如何创建的?这些特征是基于你想要预测的目标创建的。当然,正如你所预料的,他基本上用一个用他想要预测的数据训练的模型来做预测。作弊!
那么“solulu”相对于“delulu”是什么呢?对我来说,从现在开始,我将回到磨练我的数据获取和数据清洗技能。我将回到仪表板和SQL。即使我仍然使用Python,我也会专注于数据准备和分析部分。只有在你拥有干净的数据集时,对未来进行预测才有意义,而从Google或其他网站下载干净的数据集并不能反映真实世界的数据经验。这就是我最近一直在做的事情。
我仍然相信重新实现研究项目,尽管大多数项目都有很大的偏见。我想我得更好地挑选这些项目了。
所以请跟随我提升数据技能的旅程。我想学习数据在现实世界中是如何运作的,而不是通过作弊来赢得比赛。
我的看法显然有些偏颇,再加上我是个输不起的人😭😒,所以我想听听你对此的看法😏。否则,敬请期待!