幻想足球是一项书呆子游戏。通过这样说,你不可能不学习就能赢得冠军。这就是网络抓取是如何派上用场的。在本教程中,您将学习如何构建一个Web抓取工具来完成这项工作。
您现在可以迅速地将有价值的数据自动整理到一个电子表格中。而不是通过复制和粘贴从各种来源查找统计数据,这是更容易和更快。
为什么刮网?
根据报告,平均每个球员每周要花3个小时来管理他们的球队,另外9个小时是关于趋势的。大约30%的球员在日常工作中管理他们的球队。
大量的信息在你的指尖下。准确预测球队队员的表现是很困难的。你怎样才能选择第二层的球员并取得顶级的成绩呢?您需要跟踪游戏统计数据并找到隐藏的值。
什么是网络抓取?
Web抓取是从网站中自动提取数据的一种技术。传统上,您将需要一个程序员来编写脚本。
目前,Web抓取工具取代了编码的人工工作。抓取不再是程序员的特权。任何人都可以从互联网上提取有价值的信息,并将其保存到本地存储或云端。
在这篇文章中,我将向你介绍如何使用一个网络抓取工具从像FantasyPros这样的体育网站中提取梦幻足球投影点。
没有必要记录整个页面。你甚至可以更有创造力,通过与对手的球队进行一次并行的比较来获得一个优势,以便进行彻底的分析。
然后我们将其与Python脚本进行比较。所以,你会知道我们所有人,特别是梦幻足球运动员,跟踪统计数据是多么容易。
免责声明:我是“梦幻足球”的新手。这篇文章没有在战略草案中提供专业建议。相反,这是从统计角度分享知识的一部分。
先决条件:
章鱼 一个非常直观的网络抓取工具。它帮助我在数据分析项目中完成了许多障碍。这是市场上最好的。你可以在这里下载。
创建一个项目:
打开Octoparse,单击“小加号”,使用高级模型构建一个新任务。输入URL,Octoparse将使用内置浏览器打开网页。我们可以通过点击页面来交互和提取数据。
首先,单击第一行的播放机。注意,Octoparse将网站解析为单个元素。它发现了类似的元素,并以红色高亮显示。
这太棒了。按照“操作提示”,单击“选择所有子元素”。已选定整个行。然后,Octoparse会提醒您,它找到了可以选择的类似行。按照指南,点击“选择-全部”。
注意,所有行现在都已成功选中,并以绿色高亮显示。
接下来,单击“提取循环中的数据”。祝贺你!你完成了一个爬虫。[下载爬虫 ]
最后但并非最不重要的是,保存任务并在选择提取类型时开始提取。您可以在本地、云中提取或设置日程。在这种情况下,我强烈建议设置一个毕业证时间表。爬虫将及时抓取网站。所以你总是不断更新。
提取的数据将以结构化格式交付,包括Excel、txt和JSON。因为我们需要分析这些点,所以我将它们导出到Excel中,看起来如下所示。
用Python进行Web抓取
您可以阅读完整的Python工作。 这里 …我在几个步骤中分解了这个过程:
浏览到所需的页面并复制URL以供以后使用。仔细检查HTML代码,找出要提取的数据在哪里。在本例中,我们正在寻找“tr”(表行)。找到围绕所需数据的唯一标识符(如href链接、类名、表行和表数据)。尝试从一行数据中提取不同的字段。进行几次尝试和错误迭代。调整数据格式(当我们提取原始数据时,数据可能会以奇怪的格式看起来很奇怪。您需要清理字符格式并使其一致和可读性。
总结性
网络抓取运动预测是快速和容易的。然而,使用Web抓取工具,您可以在简单的点击中完成整个过程。我花了1个小时阅读“美丽汤”的文档,实验如何定位精确的字段并编写Python代码。
然而,我用不到10分钟的时间用章鱼提取。最棒的是,一旦你有了抓取器,你可以设置一个时间表,让自己自动提取。
对于玩家,可以通过设置提取爬行器来同时监视不同的站点源:
你收集的数据越多,你的分析就越全面。现在,你将获得第一手数据,甚至在新闻出来之前!