AntNest 简明飞快的异步爬虫框架开源项目

我要开发同款
匿名用户2019年02月15日
12阅读
开发技术Python
所属分类应用工具、网络爬虫
授权协议LGPL

作品详情

AntNest

简明飞快的异步爬虫框架(python3.6+),只有600行左右的代码

功能

开箱即用的HTTP客户端

提供Itemextractor,可以明确地声明如何从response解析数据(支持xpath,jpathorregex)

通过"ensure_future"and"as_completed"api提供方便的工作流

安装

pip install ant_nest

使用方式:

创建一个Demo项目:

>>> ant_nest -c examples

自动会创建以下文件:

drwxr-xr-x   5 bruce  staff  160 Jun 30 18:24 ants-rw-r--r--   1 bruce  staff  208 Jun 26 22:59 settings.py

假设我们想获取GitHub热门仓库,让我们创建一个"examples/ants/example2.py":

from ant_nest import *from yarl import URLclass GithubAnt(Ant):    """Crawl trending repositories from github"""    item_pipelines = [        ItemFieldReplacePipeline(            ('meta_content', 'star', 'fork'),            excess_chars=('\r', '\n', '\t', '  '))    ]    concurrent_limit = 1  # save the website`s and your bandwidth!    def __init__(self):        super().__init__()        self.item_extractor = ItemExtractor(dict)        self.item_extractor.add_pattern(            'xpath', 'title', '//h1/strong/a/text()')        self.item_extractor.add_pattern(            'xpath', 'author', '//h1/span/a/text()', default='Not found')        self.item_extractor.add_pattern(            'xpath', 'meta_content',            '//div[@class="repository-meta-content col-11 mb-1"]//text()',            extract_type=ItemExtractor.EXTRACT_WITH_JOIN_ALL)        self.item_extractor.add_pattern(            'xpath',            'star', '//a[@class="social-count js-social-count"]/text()')        self.item_extractor.add_pattern(            'xpath', 'fork', '//a[@class="social-count"]/text()')    async def crawl_repo(self, url):        """Crawl information from one repo"""        response = await self.request(url)        # extract item from response        item = self.item_extractor.extract(response)        item['origin_url'] = response.url        await self.collect(item)  # let item go through pipelines(be cleaned)        self.logger.info('*' * 70 + 'I got one hot repo!\n' + str(item))    async def run(self):        """App entrance, our play ground"""        response = await self.request('https://github.com/explore')        for url in response.html_element.xpath(                '/html/body/div[4]/div[2]/div/div[2]/div[1]/article//h1/a[2]/'                '@href'):            # crawl many repos with our coroutines pool            self.schedule_coroutine(                self.crawl_repo(response.url.join(URL(url))))        self.logger.info('Waiting...')

然后我们可以列出所有可运行的爬虫(在"examples"文件夹下)

>>> $ant_nest -lants.example2.GithubAnt

运行!(without debuglog):

>>> ant_nest -a ants.example2.GithubAntINFO:GithubAnt:OpeningINFO:GithubAnt:Waiting...INFO:GithubAnt:**********************************************************************I got one hot repo!{'title': 'NLP-progress', 'author': 'sebastianruder', 'meta_content': 'Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks.', 'star': '3,743', 'fork': '327', 'origin_url': URL('https://github.com/sebastianruder/NLP-progress')}INFO:GithubAnt:**********************************************************************I got one hot repo!{'title': 'material-dashboard', 'author': 'creativetimofficial', 'meta_content': 'Material Dashboard - Open Source Bootstrap 4 Material Design Adminhttps://demos.creative-tim.com/materi…', 'star': '6,032', 'fork': '187', 'origin_url': URL('https://github.com/creativetimofficial/material-dashboard')}INFO:GithubAnt:**********************************************************************I got one hot repo!{'title': 'mkcert', 'author': 'FiloSottile', 'meta_content': "A simple zero-config tool to make locally-trusted development certificates with any names you'd like.", 'star': '2,311', 'fork': '60', 'origin_url': URL('https://github.com/FiloSottile/mkcert')}INFO:GithubAnt:**********************************************************************I got one hot repo!{'title': 'pure-bash-bible', 'author': 'dylanaraps', 'meta_content': '
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论