使用了协程来爬取数据用mysql数据库进行保存,并进行数据去重。
思路分析:
1. 当前页面数据为静态数据,在翻页时url中的sp1会变更为sp2,所以当前页面可以使用xpath提取数据。
2. 通过首页进入到详情页有当前汽车的配置信息,汽车配置信息页中的数据是动态数据,可以使用抓包的方式获取api。
3. 根据获取的api链接发现当前链接中存在查询字符串:specid
4. 回到首页,在汽车列表中通过元素发现li标签中存在汽车的id值,获取id值拼接api链接地址。
5. 构造请求访问构造好的api地址获取数据。
点击空白处退出提示
评论