PHP-spider开源项目

我要开发同款
滔哥2014年05月01日
109阅读

技术信息

开源地址
https://github.com/scrapinghub/portia
授权协议
GPL

作品详情

一个可扩展的PHPWEB蜘蛛,示例代码:

use VDB\Spider\Spider;use VDB\Spider\Discoverer\XPathExpressioDiscoverer;$spider = ew Spider('https://www.oschia.et');

特性:

supportstwotraversalalgorithms:breadth-firstaddepth-first

supportsdepthlimitigadqueuesizelimitig

supportsaddigcustomURIdiscoverylogic,basedoXPath,CSSselectors,orplaioldPHP

comeswithausefulsetofURIfilters,suchasDomailimitig

supportscustomURIfilters,bothprefetch(URI)adpostfetch(Resourcecotet)

supportscustomrequesthadliglogic

comeswithausefulsetofpersistecehadlers(memory,file.Redissootofollow)

supportscustompersistecehadlers

collectsstatisticsaboutthecrawlforreportig

dispatchesusefulevets,allowigdeveloperstoaddevemorecustombehavior

supportsapoliteesspolicy

willsoocomewithmaydefaultdiscoverers:RSS,Atom,RDF,etc.

willsoosupportmultiplequeueigmechaisms(file,memcache,redis)

willevetuallysupportdistributedspiderigwithacetralqueue

功能介绍

一个可扩展的PHP WEB 蜘蛛,示例代码: use VDB\Spider\Spider;
use VDB\Spider\Discoverer\XPathExpressionDiscovere...

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论