熟练使用Python,对网络应用层较熟悉,会使用wireshark抓包,有多次数据爬取经历;熟练使用Linux系统,笔记本电脑操作系统为ubuntu,有两年多使用时间;搭建过个人博客网站,对jekyll框架熟悉。

该项目的功能是爬取小程序的所有视频和课件资料,使用的是Python来完成。先使用wireshark抓包找到小程序背后的网站,再分析网站的页面逻辑,打开浏览器开发者选项找到对应的数据接口,最后编写Python程序。考虑到本次爬取数据量大,爬取时间长,所以给爬取程序添加了日志记录、断点续传和自动重试功能,增加了爬取过程的稳健性。加入了下载进度记录,万一中断,重新运行程序即可从中断的地方接续爬取,非常方便。
02025-08-02 22:46