课程:《Python程序设计》
班级: 2042
姓名: 施鸽
学号:20204218
实验教师:王志强
实验日期:2022年5月27日
必修/选修: 公选课
本次综合实验我选择了网络爬虫——爬取豆瓣电影排行榜top250,并将爬取得到的信息写入文档(在学习爬取网页标题的基础上,尝试爬取页面指定内容)
爬取网页相关电影排名、电影名称、电影别名、导演姓名、上映年份、制作国家/地区等内容。
导入os、re等第三方库、使用request爬取网页、应用正则表达式
1.生成URL
2.分析网页标签,定位爬取信息
3.请求网页request
4.存储信息至文档中
1.获取网页地址,也就是URL,豆瓣电影排行榜的网页地址在下方,然后发出请求并等待响应response。
https://movie.douban.com/top250?start=;
2.定义一个类名MovieTop,然后在类中定义好获取页面的方法和初始化方法:
3.使用正则表达式进行解析;
4.使用循环语句。原因:豆瓣影片榜网页中共有10个页面,每个页面有25个影片。这意味着我们需要解析10个页面,用for循环来实现。
5.储存信息,写入文件的步骤较为简单,之前在实验三中实现过。只需利用os模块和file操作。
在华为云服务器上运行代码。(源代码已经发给课代表)
1.一开始无法安装request库。后面通过更新pip得到解决。
2.正则表达式仅见老师上课使用过,自己未真正掌握。通过在B站上跟着视频教学打出来。
一个学期的Python课结课了,写下一点感想来记录一下某计算机小白在Python课上的心路历程。初进Python的大门还是很激动忐忑的,因为自己对编程没有任何了解,很担心自己学不会、做不好。为什么选这门课呢,是因为上个暑假在家乡疫情期间做大数据志愿者时,部门主任利用Python爬取网格数据极大地提高了流调效率,那时候真的感受到了技术的魅力。所以上学期末选课时,在自然科学类学分已修满的情况下我还是毫不犹豫地选择了Python程序设计。
从搭建集成开发环境到安装各种插件,从学习序列的应用到函数的创建和调用,从socket通信到爬取网页标题。每一堂课、每一次实验都好像在冒险,不断接收新知识,学习新理论。特别是实验任务,让我又爱又恨,由于脑子不太够用,为了完成实验任务,总需要课后在网上各种搜索教学视频,一步一步的跟着视频实操。虽然有些代码能在csdn上、在教材上直接找到,但自己必须弄懂代码的每一个步骤,否则根本无法写出实验报告。过程很痛苦,但真正做完一个实验时,内心的成就感直接达到顶峰。另外,我发现知识都是融会贯通的,我和另一位同学基于Python完成了一次socket加密认证通信用来完成一次信息安全实验。即使12节课程结束,我的Python学习之路还有很长。多掌握一些技术,有备无患。“人生苦短,我用Python”,Python不仅是一项编程技术,还是对逻辑的绝佳锻炼,争取每一次都能用更简单的代码写出更好用的程序。
何其有幸,得遇良师塾友。感谢费尽心思把课讲得通俗易懂的志强老师,感谢课下耐心回答我一些无脑问题的中国好同学,感谢那个没有敷衍每一次作业的自己。以后争取不辜负每一节Python课。
——2022.05.30