Photo by 马吕斯表 on 不飞溅
网络抓取是任何数据科学家在他们的工具箱中拥有的一项重要技能。 网络抓取可用于收集有关待售产品、用户帖子、图像以及几乎任何其他在网络上有用的数据 .
网络抓取(或数据抓取)是一种用于从互联网收集内容和数据的技术。这些数据通常保存在本地文件中,以便可以根据需要对其进行操作和分析。如果您曾经将网站上的内容复制并粘贴到 Excel 电子表格中,这本质上就是网络抓取,但规模非常小。
对于网络抓取,需要考虑几个不同的库,包括:
在这个例子中,我们将使用 Beautiful Soup。
首先,我们将导入所需的库。
**从** BS4 **进口** 美丽汤 **进口** 要求 **进口** 时间 **进口** 约会时间 **进口** smtplib
复制并粘贴我们要废弃的网站的链接。然后,我们从计算机中获取“标题”,即“用户代理”,通过 这里 .
网址 **=** 'https://www.amazon.com/Funny-Data-Systems-Business-Analyst/dp/B07FNW9FGJ/ref=sr_1_3?dchild=1&keywords=data%2Banalyst%2Btshirt&qid=1626655184&sr=8-3&customId=B0752XJYNL&th=1' 标题 **=** {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36", "Accept-Encoding":"gzip, deflate" , "接受":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "升级不安全请求":"1"} 页 **=** 要求 **.** 获取(网址,标题 **=** 标题)
现在我们开始实际使用 Beautiful Soup 库。
汤1 **=** 美丽汤(页 **.** 内容,“html.parser”) 汤2 **=** 美丽汤(汤1 **.** 美化(),“html.parser”) 标题 **=** 汤2 **.** 找到(身份证 **=** '产品标题') **.** 获取文本() 价格 **=** 汤2 **.** 找到(身份证 **=** 'priceblock_ourprice') **.** 获取文本() 打印(标题) 打印(价格)
我们得到的输出是:
有趣的得到数据 MIS 数据系统业务分析师 T 恤 16.99 美元
下一步是为输出创建时间戳以跟踪收集数据的时间。
**进口** 约会时间 今天 **=** 约会时间 **.** 日期 **.** 今天() 打印(今天)
我们将数据附加到 cs 五。
**和** open('AmazonWebScraperDataset.csv', 'a+', 换行 **=** '', 编码 **=** 'UTF8') **作为** F: 作家 **=** CSV **.** 作家(女) 作家 **.** 写手(数据)
现在我们可以可视化我们抓取的数据。
**进口** 熊猫 **作为** PD df **=** PD **.** read_csv(r'C:\Users\Alysson\AmazonWebScraperDataset.csv') 打印(df)
这是我们可以用来在互联网上废弃数据的方法之一。我希望这很清楚。一个好的数据科学家必须知道如何使用上面提到的各种方法。完整代码可以访问 这里 .
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/23550/25301001