课程名称:Scrapy打造搜索引擎(分布式爬虫)
课程章节:提取博客网详情页信息
主讲老师:bobby
今天学习的内容包括:Scrapy中为什么使用yield、提取博客网详情页信息分析
简单地讲,yield 的作用就是把一个函数变成一个 generator,通常运用在带有循环的函数中,带有 yield 的函数不再是一个普通函数,Python 解释器会将其视为一个 generator,调用该函数时不会执行该函数,而是返回一个 iterable 对象!在 for 循环执行时,每次循环都会执行该函数内部的代码,执行到 yield时,该函数就返回一个迭代值,下次迭代时,代码从 yield的下一条语句继续执行,而函数的本地变量看起来和上次中断执行前是完全一样的,于是函数继续执行,直到再次遇到 yield。
2.提取博客网详情页信息
1.爬虫待爬取数据
2.提取详情页的点赞数、评论数、查看数问题
1.直接读取
2.查看网页html代码
3.查找返回评论数、点赞数等的js文件