使用scrapy框架爬取网易云每个模块下新闻标题以及标题下的内容

我要开发同款

proginn22261887892021年12月18日

427阅读

功能介绍

1. 手动操作一遍，看看每个板块是不是动态加载，有没有带参数
2. 在终端里 scrapy startproject wanyi 构建wanyi文档，cd进入文档，scrapy genspider wanyipy www.xxx.com 在目录下创建一个爬虫文件
3. 在items文件里建立两个对象（标题和内容）
4. 首先通过xpath爬取到首页中每个模块的href，接着对每一个板块的url进行请求发送
5. 发现每一个板块对应的新闻标题相关的内容都是动态加载，所以得导入selenium库来进行发送请求并在middlewares里拦截并篡改响应数据，再return出新的请求
6. 依次遍历通过xpath获取到每个模块下的标题和标题链接
7. 请求标题链接再通过xpath获取到对应标题下的新闻内容，import items库实例化一个item对象，赋值上标题和内容的值再yield出去到管道类里边
8. 最后在pipelines文件里进行存储数据的操作

示例图片

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论

重点城市程序员兼职推荐

北京程序员兼职上海程序员兼职深圳程序员兼职广州程序员兼职杭州程序员兼职成都程序员兼职南京程序员兼职武汉程序员兼职西安程序员兼职重庆程序员兼职郑州程序员兼职长沙程序员兼职苏州程序员兼职合肥程序员兼职厦门程序员兼职济南程序员兼职青岛程序员兼职天津程序员兼职大连程序员兼职福州程序员兼职石家庄程序员兼职沈阳程序员兼职太原程序员兼职无锡程序员兼职南昌程序员兼职哈尔滨程序员兼职南宁程序员兼职珠海程序员兼职宁波程序员兼职昆明程序员兼职东莞程序员兼职贵阳程序员兼职美国程序员兼职长春程序员兼职温州程序员兼职佛山程序员兼职常州程序员兼职呼和浩特程序员兼职兰州程序员兼职乌鲁木齐程序员兼职中山程序员兼职海口程序员兼职洛阳程序员兼职

更多

点击空白处退出提示

您好 👋

我们能提供什么帮助？

向我们发送消息

常见问题、使用帮助、人工咨询等

智能搜索手机访问

使用微信扫一扫