通过爬虫技术,收集各类数字藏品网站或APP的资讯并按一定的规则分类供客户浏览、API调取等。
点击空白处退出提示
通过爬虫技术,收集各类数字藏品网站或APP的资讯并按一定的规则分类供客户浏览、API调取等。
数据采集,通过配置好的网站数据来源,在对方网站robots协议允许的范围内有针对性将有关数字藏品的资讯信息采集保存(仅仅包括:图片和文字)。
数据清洗,对于原数据未申明“不得转载”或是““转载需保留出处””等版权的资讯信息,对内容中可能的广告、内链进行整理。
项目的部署采用服务器存储数据,本地机器运行采集节点程序的方式实现。通过一系列特定存储技术避免重复数据采集与存储。
由于数据量很大,采用了多mysql数据库节点的实现多点存储,多点读取。
在图片存储方面:
1、使用了应用服务器与图片分离方案保证应用服务器在繁杂的API调用时的可靠性;
2、随着图片数量100万张以上,为应对大量多种不同尺寸不同场景图片缩略图展示需要,创新性使用PHP脚本后台与应用服务器结合的方式按展示需要动态生成缩略图并缓存。




评论