spider-web 网页版爬虫开源项目

我要开发同款
匿名用户2014年12月02日
27阅读
开发技术Java
所属分类应用工具、网络爬虫
授权协议GPL

作品详情

spider-web是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。

其中配置文件格式为:

<?xmlversion="1.0"encoding="UTF-8"?><content><urltype="simple"><!--simple/complex--><url_head>https://www.oschina.net/tweets</url_head><url_start></url_start><url_end></url_end><url_suffix></url_suffix></url><analysistype="list"><!--single/list--><elemname="title"><attrtype="key"num="1"><!--tag/class/key--><name>link</name><!--$https://my.oschina.net/(.)*--><pro>https://my.oschina.net/(.)*/[0-9]*</pro></attr><attrtype="class"num="2"><!--tag/class/key--><name>tweet</name><pro>a</pro></attr><attrtype="class"num="3"><name>txt</name><pro>a</pro></attr><attrtype="tag"num="4"><name>a</name><pro>a</pro></attr></elem><elemname="content"><attrtype="key"num="1"><!--tag/class/key--><name>link</name><!--$https://my.oschina.net/(.)*--><pro>https://my.oschina.net/(.)*/[0-9]*</pro></attr><attrtype="class"num="2"><!--tag/class/key--><name>tweet</name><pro>a</pro></attr><attrtype="class"num="3"><name>txt</name><pro>a</pro></attr></elem></analysis><targettype="download"><!--download/text--></target></content>根据不同的页面进行设置,可以支持比较流行的页面爬取。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论