1.缘由
女神前几天参加一个活动,需要制作ppt,制作完之后ppt模板死活不能让人满意。然后就去网上找模板,有些比较适合ppt模板还是收费的,这…,有点恶心,哈哈哈!!
今天教女神也教大家如何使用python爬虫爬取1万份『ppt模板』,以后制作ppt再也不怕了没有模板了!!!
2.相关介绍
网站:
https://sc.chinaz.com/ppt/free.html
一共702页,每页20个ppt模板
2.爬虫思路
先遍历每一页,获取每一页ppt模板的url。
根据ppt模板的url获取下载地址。
最后根据下载地址将文件下载到本地。
3.遍历每一页
获取ppt模板url和类型
# 个人公众号 yk 坤帝 # 后台回复 ppt模板 领取ppt for i in range(1,5): response = requests.get('https://sc.chinaz.com/ppt/free_' + str(i) + '.html') response.encoding = 'utf-8' page_text = response.text tree = etree.HTML(page_text) div_list = tree.xpath('//div[@class="bot-div"]') for div in div_list: href ='https://sc.chinaz.com' + div.xpath('./a/@href')[0] title = div.xpath('./a/text()')[0]
保存ppt的url和类型
4.下载保存
获取下载地址:
res = requests.get(href) tree = etree.HTML(res.text) url = tree.xpath('//div[@class="download-url"]/a[1]/@href')[0] print(url) ppt = requests.get(href).content if not os.path.exists('ppt模板'): os.mkdir('ppt模板') with open('ppt模板/' + title + '.rar', 'wb') as file: file.write(ppt) print(title + ':下载完毕!!!!!!')
5.批量下载
for i in range(1,5): response = requests.get('https://sc.chinaz.com/ppt/free_' + str(i) + '.html')
通过设置遍历的页数,实现批量下载
6.10000+ppt模板素材随用随取 完整源代码点这里获取
通过python编程实现爬取10000+ppt模板素材,以后再也不用担心制作ppt没有模板了!