该项目分为爬虫模块数据来源站点为爱企查和企查查,通过暴力破解天眼查公司id 取得公司名称 。然后加入redis任务队列 使用gevnt从redis中取出任务异步爬取。几个服务器上搭载爬虫模块汇总统一的数据库中根据各个维度分别建表,通过MD5
值进行关联。并根据各个维度特性建造索引方便查询及去重。使用Django编写接口并写入对应sql 进行查询筛选返回数据至前端使用
点击空白处退出提示
该项目分为爬虫模块数据来源站点为爱企查和企查查,通过暴力破解天眼查公司id 取得公司名称 。然后加入redis任务队列 使用gevnt从redis中取出任务异步爬取。几个服务器上搭载爬虫模块汇总统一的数据库中根据各个维度分别建表,通过MD5
值进行关联。并根据各个维度特性建造索引方便查询及去重。使用Django编写接口并写入对应sql 进行查询筛选返回数据至前端使用
评论