以满足电商情报爬取需求为核心,能够支撑全集团爬取需求的通用分布式垂直网络爬虫系统。支持大规模集群化抓取,模板化配置抓取流程,自动破解网站抓取封锁等功能
担任技术经理,负责架构设计、技术调研,并独立设计实现了以下多个核心功能模块:以线程为单位的分布式任务调度框架Spider-Yarn,基于Spider-yarn之上的爬虫任务调度、执行模块,以及ADSL动态防封系统。目前集群规模接近2000个节点,抓取日pv15亿以上
点击空白处退出提示
语言技术
Java
以满足电商情报爬取需求为核心,能够支撑全集团爬取需求的通用分布式垂直网络爬虫系统。支持大规模集群化抓取,模板化配置抓取流程,自动破解网站抓取封锁等功能
担任技术经理,负责架构设计、技术调研,并独立设计实现了以下多个核心功能模块:以线程为单位的分布式任务调度框架Spider-Yarn,基于Spider-yarn之上的爬虫任务调度、执行模块,以及ADSL动态防封系统。目前集群规模接近2000个节点,抓取日pv15亿以上
评论