网络爬虫服务平台

我要开发同款
超神之巅2023年10月07日
78阅读
所属分类网络爬虫、 PC网站

作品详情

项目介绍:该项目是以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台,为各个系统抓取网站数据而生,支持html网页数据提取,PDF内容提取等,详情见技术要点;项目职责:1、担任项目负责人,搭建框架,统筹整个项目日常工作;2、封装集成常用拓展组件,便捷式可视化流程图拖拽开发;3、部署环境,处理日常生产bug,培养新人,分发日常工作任务;技术要点:1、支持Xpath/JsonPath/css选择器/正则提取/混搭提取。2、支持JSON/XML/二进制格式。3、支持多数据源、SQL select/selectInt/selectOne/insert/update/delete;4、支持爬取JS动态渲染(或ajax)的页面;5、支持动态代理,防止固定IP被封。6、支持自动保存至数据库/文件。7、常用字符串、日期、文件、加解密等函数。8、任务监控,任务日志。9、支持HTTP/HTTPS接口。10、支持Cookie自动管理。11、支持自定义函数。12、支持pdf数据提取。拓展组件:Selenium插件、Redis插件、OSS插件、Mongodb插件、IP代理池插件、OCR识别插件、电子邮箱插件、elasticsearch
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论