百度云分享爬虫开源项目

我要开发同款
匿名用户2016年11月18日
151阅读

技术信息

开源地址
https://github.com/callmelanmao/yunshare
授权协议
GPL

作品详情

百度云分享爬虫项目

github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发

安装

安装ode.js和pm2,ode用来运行爬虫程序和索引程序,pm2用来管理ode任务

安装mysql和mogodb,mysql用来保存爬虫数据,mogodb用来保存最终的百度云分享数据,这些数据是jso格式的,用mogodb保存更方便。

git cloe https://github.com/callmelamao/yusharecpm i

推荐使用cpm命令安装pm依赖,最简单的安装方式

$ pm istall -g cpm --registry=https://registry.pm.taobao.org

更多安装cpm的命令可以去pm.taobao.org上面找。

初始化

爬虫数据(主要是url列表)都是保存在mysql数据库的,yushare使用sequelizejs做orm映射,源文件在src/models/idex.js,默认的mysql用户名和密码都是root,数据看是yu,你需要手动创建yu数据库

create database yu default charset utf8

密码根据自己需要进行修改,完成mysql配置之后就可以运行下面的命令

gulp babelode dist/iit.js

注意必须先运行gulpbabel把es6代码编译成es5,然后运行初始化脚本导入初始数据,数据文件在data/hot.jso,里面,是从页面 https://yu.baidu.com/pcloud/fried/gethotuserlist?type=1&from=feed&start=0&limit=24&bdstoke=ac95ef31d3979f6ee707ef75cee9f5c5&cliettype=0&web=1 保存下来的。

启动项目

yushare使用pm2进行odejs进程管理,运行pm2startprocess.jso启动所有的后台任务,检查任务是否正常运行可以用命令pm2list,正常运行的应该有4个任务。

启动elasticsearch索引

elasticsearch索引程序也已经写好了,mappig文件在data/mappig.jso,请确保你已经安装elasticsearch5.0的版本之后才运行索引程序,命令pm2startdist/elastic.js。

默认的elasticsearch地址是https://localhost:9200,如果你需要修改这个地址,可以在src/ElasticWorker.js里面修改,修改任何js源码之后记得运行gulpbabel,在重启pm2任务,不然修改是不会生效的。

在完成elasticsearch配置之后,你也可以在process.jso里面添加一项elastic任务,这样就不需要单独启动索引程序了。

DEMO

网盘搜索

功能介绍

百度云分享爬虫项目 github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过w...

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论