一、项目分为5个功能模块,分别实现启动模拟浏览器、模拟提取目标网站源代码、定位目标数据标签、数据清洗整理和保存数据。二、使用了python,编写全部爬虫代码,成功获取新浪热搜榜榜单(包括文字和数据)。三、难点在于新浪设置了一定反爬虫机制,利用python的selenium启动模拟浏览器
评论