多渠道实时抓取web3 相关网站,清洗及格式化新闻数据,所获取的200万+的数据,一方面作为RSS新闻源直接提供,供用户浏览阅读,一方面供milvus拉取,构建RAG知识库,满足用户在AI中的相关提问
点击空白处退出提示
多渠道实时抓取web3 相关网站,清洗及格式化新闻数据,所获取的200万+的数据,一方面作为RSS新闻源直接提供,供用户浏览阅读,一方面供milvus拉取,构建RAG知识库,满足用户在AI中的相关提问
使用jsoup,selenium 等实现多个新闻网站最新数据抓取,数据发送到kafka,并接入后续数据清洗,处理,存储流程,主要用于构建news feed流,供AI构建RAG等
1.网页数据抓取技术,整体架构设计
2.存储设计及长尾加工处理流程
3.多数网站有加密,五秒盾等反机器人反扒逻辑,实现稳定抓取挑战很多



评论