在我的第一篇博客中,我开玩笑说我不知道我在 Python 的 Pandas 库中做了什么,但我喜欢弄清楚事情。我参加了 General Assembly 的数据科学沉浸式课程 6 周。我大部分时间都熬夜到凌晨 12 点至凌晨 3 点,要么完成作业,要么尝试就我们正在快速学习的主题进行自我教育。仅在过去的 5 周里,我就为这个职业转变倾注了数百个小时,还有那个关于不知道我在 pandas 中做什么的笑话?
是的,这仍然是真的。
在 5 周内,我学到了超过一个学期甚至一年的大学所学知识。最重要的是,我了解到我什么都不知道,这没关系。
我注意到我正在学习的是我的投入程度。在这门课程之前,虽然我对这种职业转变充满信心,但我并不完全确定一切会如何发展。我预测我的大部分学习习惯将来自改变职业的压力,但老实说,我一直看到自己喜欢在(几乎)每项任务上付出 100% 的努力。我有一半时间错误地在凌晨 2 点起床,却没有注意到已经过去了多少时间。完成任务的压力之前的部分概念也与我知道即使在训练营后我也会追赶,因为这个领域不是我的专业领域。最重要的是我喜欢我正在学习的东西,我最近提交了一个项目,我使用线性回归模型来预测给定的住房数据集的价格。
该项目的 90% 涉及数小时的清理和设置我的数据,以便我的模型运行良好。到项目结束时,我有一个平均模型在 Kaggle 上的上半部分得分,但我一直在想:“我真的希望我能再过一周,因为我终于知道我在做什么并且可以做得更好。”然而,我没有一周的时间,我只有 5 个小时的时间来提交项目。不管我花在这个项目上的时间是多么重要,因为最终当我在这个领域找到一份工作时,这不是整天清理数据的入门级繁重工作,我想运行模型以改善任何一家公司我结束了。为了达到这一点,我需要对我所做的事情背后的数学产生更大的欣赏,尽管我部分归咎于 Python 缺乏欣赏/知识,因为 Python 确实为我做了一切。
例如,在我最近提交的项目中,我的训练集和测试集的初始模型分数都是 0.90。乍一看,这似乎是惊人的,但是在快速检查我的模型严重升高的均方根误差后,我发现我需要应用错误惩罚。缩放数据后,我应用了 lasso、ridge 和弹性网络惩罚。 Lasso 鼓励只关注重要特征的简单模型。 Ridge 专注于消除模型中的多重共线性,而弹性网络基本上两者兼而有之。
当我说我需要更多地了解正在发生的事情背后的数学时,这就是我的意思。
我知道 Lasso、Ridge 和弹性网“做什么”。我知道什么时候使用它们,我知道如何解释系数和分数以确定哪个模型最好(套索对我来说表现最好。)问题是,Python 为我做了一切,因为我输入了一些代码,但我没有了解幕后的全部数学知识。我的带有套索惩罚的模型通过对我的模型的权重绝对值总和进行惩罚来工作。我不知道我脑海中的公式,如果没有运行代码,我将无法运行这个惩罚。这可能是一个奇怪的例子,但重点是,在其余的队列中,我希望在这里获得对此类实例的更多理解。我只需要停止熬夜到凌晨 2 点,玩每晚都在追赶的感觉。
当队列确实结束时,我只是期待申请工作并将我的技能带到现实世界。不过,我尽量不要过多地考虑那部分。对于我来说,找工作会是什么样子,我仍然有些焦虑。对自己诚实,我知道我不是我竞争中的佼佼者。我确实拥有的优势是我在医疗保健领域的工作背景以及拥有大学学位并住在波士顿。与我工作的缺点是,与计算机科学专业的毕业生或其他将申请相同工作的人相比,我在编码和处理大数据方面要新得多。理想情况下,当我申请数据科学、数据分析师、数据工程师、数据等职位时,我会有点幸运,并获得了一个分析师角色,在现实世界中处理大型数据集变得更加自如。我还计划在这个队列结束时获得额外的证书,例如 AWS,以增加我在就业市场的机会。
最后,当朋友或家人问我在学习什么时,我不知道如何向他们解释我在学习什么。不过有趣的是,在与我的同龄人交谈时,很容易解释我正在运行的代码以及它的作用,并相互交流想法。除非我在我面前解释代码,否则我不知道如何解释我正在学习的内容。我什至不知道从哪里开始。您如何向没有任何数据科学或编码经验的人解释数据科学?我想答案是练习练习练习。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/7566/13240108