C/C++教程

【学习打卡】第6天 Scrapy打造搜索引擎 提取博客网详情页信息分析

本文主要是介绍【学习打卡】第6天 Scrapy打造搜索引擎 提取博客网详情页信息分析,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

课程名称:Scrapy打造搜索引擎(分布式爬虫)


课程章节:提取博客网详情页信息


主讲老师:bobby


课程内容:

今天学习的内容包括:Scrapy中为什么使用yield、提取博客网详情页信息分析


课程收获:

    1.Scrapy中为什么使用yield

        简单地讲,yield 的作用就是把一个函数变成一个 generator,通常运用在带有循环的函数中,带有 yield 的函数不再是一个普通函数,Python 解释器会将其视为一个 generator,调用该函数时不会执行该函数,而是返回一个 iterable 对象!在 for 循环执行时,每次循环都会执行该函数内部的代码,执行到 yield时,该函数就返回一个迭代值,下次迭代时,代码从 yield的下一条语句继续执行,而函数的本地变量看起来和上次中断执行前是完全一样的,于是函数继续执行,直到再次遇到 yield。

        https://img1.sycdn.imooc.com/62f319c4000158e414660901.jpg

        https://img4.sycdn.imooc.com/62f319cd0001718a13480456.jpg




    2.提取博客网详情页信息

        1.爬虫待爬取数据

            https://img2.sycdn.imooc.com/62f31a2c0001b82424001288.jpg

            https://img1.sycdn.imooc.com/62f31a3e0001229924001288.jpg


    2.提取详情页的点赞数、评论数、查看数问题

        https://img2.sycdn.imooc.com/62f31a700001d3ce23981173.jpg

        1.直接读取

            https://img2.sycdn.imooc.com/62f31a920001e3c424001288.jpg

        2.查看网页html代码

            https://img1.sycdn.imooc.com/62f31aaf0001709024001288.jpg

        3.查找返回评论数、点赞数等的js文件

            https://img3.sycdn.imooc.com/62f31ac600010cab23951168.jpg    

            https://img1.sycdn.imooc.com/62f31adb0001d35123981170.jpg

这篇关于【学习打卡】第6天 Scrapy打造搜索引擎 提取博客网详情页信息分析的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!