针对多源信息过载与重复报道问题,独立设计并实现一套全自动新闻处理 Agent Pipeline,每日定时运行,完成从数据采集到结构化归档的完整链路:采集层支持多源 RSS 与网页爬虫定时抓取;评估层调用 LLM对内容进行质量打分与过滤;去重层基于语义相似度合并同一事件的重复报道;精读层由 LLM生成结构化摘要与关键信息提炼;归档层将处理结果结构化存储,支持按主题与日期检索回溯。
点击空白处退出提示
针对多源信息过载与重复报道问题,独立设计并实现一套全自动新闻处理 Agent Pipeline,每日定时运行,完成从数据采集到结构化归档的完整链路:采集层支持多源 RSS 与网页爬虫定时抓取;评估层调用 LLM对内容进行质量打分与过滤;去重层基于语义相似度合并同一事件的重复报道;精读层由 LLM生成结构化摘要与关键信息提炼;归档层将处理结果结构化存储,支持按主题与日期检索回溯。
Elite News Digest 是一款本地运行的 AI 新闻精选工具。用户通过桌面图形界面一键启动,程序自动并发抓取 TechCrunch、Ars Technica、36氪、BBC、卫报、新华社六大信源的新闻标题,调用 DeepSeek 大模型对每条新闻进行重要性评分,按科技与时事两个方向筛选出当日最具价值的新闻,再通过无头浏览器提取文章全文,最终自动同步至 Notion 知识库存档。整个流程无需人工干预,实时日志面板展示每步进度。
这是由我独自开发的新闻摘要系统项目,项目采用 Python 异步架构,所有网络请求通过 asyncio 并发执行以提升效率。新闻抓取阶段使用 aiohttp 发起 HTTP 请求,BeautifulSoup4 解析 HTML提取标题和链接。AI 评分阶段分两轮进行,第一轮将全部候选标题按批次送入 DeepSeek API 快速打分,第二轮对评分靠前的 20 条进行精细分析,最终按配额保留10 条。内容提取阶段启动 Playwright 浏览器,多个标签页并行打开目标页面,通过站点专属 CSS选择器提取正文,并过滤付费墙提示、版权声明等干扰内容。Pydantic 负责全程数据结构校验,确保每条新闻字段完整。导出阶段调用 Notion REST API逐条写入,限速 0.5 秒每条避免触发频率限制。桌面界面由 Tkinter 构建,提供连接检测、一键启动和实时日志三个核心交互。




评论