用户日常关注多个微信公众号,每天/每周会产生大量行业资讯。人工逐一阅读效率低下,需要一个自动化工具对关注的公众号文章做定期收集、聚合、汇总,提高信息获取效率,包含:
- 从RSS源批量获取公众号文章
- 根据时间范围筛选目标文章
- 对每篇文章进行核心信息提炼
- 对所有提炼后的信息进行分类、归纳、分析
- 最终生成一篇既有客观资讯汇总,又有深度行业洞察的综述文章
点击空白处退出提示
用户日常关注多个微信公众号,每天/每周会产生大量行业资讯。人工逐一阅读效率低下,需要一个自动化工具对关注的公众号文章做定期收集、聚合、汇总,提高信息获取效率,包含:
- 从RSS源批量获取公众号文章
- 根据时间范围筛选目标文章
- 对每篇文章进行核心信息提炼
- 对所有提炼后的信息进行分类、归纳、分析
- 最终生成一篇既有客观资讯汇总,又有深度行业洞察的综述文章
## 核心功能设计
### 1. RSS抓取 + 正文提取
- 从配置读取多个公众号RSS源
- 按时间范围筛选文章(最近N天)
- 从RSS content字段提取全文HTML(私有部署RSS服务已经包含全文,不需要二次爬取)
- 使用BeautifulSoup提取纯净正文文本,去掉HTML标签、广告、推荐阅读等干扰内容
- 提取结果存入SQLite数据库
### 2. AI单篇提炼
- 从数据库取出已经提取正文但还未提炼摘要的文章
- 逐个调用AI,要求提炼100-300字核心信息(核心观点、关键数据、重要事件)
- 提炼结果更新回数据库
- 支持断点续跑:已经提炼的文章自动跳过
### 3. 分类归纳 + 生成洞察
- 所有已提炼文章按时间范围取出
- 限制最大文章数量(默认120篇),避免上下文溢出,超过则随机抽样保证覆盖整个时间范围
- AI自动分类,输出JSON分类结果
- AI基于分类后的文章生成行业洞察(3-5条)
- 生成完整Markdown综述
### 4. 定时专题输出
- 配置化定义多个专题,每个专题指定星期几输出 + 专题名称 + 专题描述
- 每天定时触发,判断今天是否有专题需要输出
- 如果本周该专题已经输出过,默认跳过(支持--force强制重新生成)
- 获取最近N天所有已提炼文章
- AI逐个判断文章是否属于当前专题,筛选保留相关文章
- 对筛选后的文章AI自动细分类
- AI生成专题行业洞察
- 生成Markdown → 保存本地 → 在飞书指定综述文件夹创建飞书文档 → 写入内容 → 数据库记录信息 → 发送通知到指定飞书群
我负责整个项目全周期,包含需求、设计、开发、部署全流程。
技术实现方案:
一、核心语言 / 运行时
1、Python 3.9+ 为主,少量 Shell 脚本(run_scheduled_topic.sh)做定时任务入口
2、依赖 OpenClaw 环境做模型调用
二、数据抓取与解析
1、私有化 wechat2rss 服务(RSS 已含全文 HTML,不二次请求微信)
2、requests 发请求,BeautifulSoup4 + lxml 解析正文、去广告 / 二维码
3、OPML 管理订阅源
三、AI 模型层(配置化、双模型策略)
1、简单任务(摘要提炼 + 分类):doubao-seed-2.0-code 轻量模型
2、复杂任务(洞察生成 + 升华整理):GLM 系列(已升级到 GLM-5.2,thinking 默认关闭)
3、token 逐级降级重试机制,大批次成功率 95%+
四、存储
1、SQLite,按 articles /articles_content/article_abstracts /insights/summaries 分表,支持断点续跑、增量更新
五、输出与集成
1、飞书开放 API(自动建文档、写结构化 Markdown 综述)
2、cron 定时调度,按星期自动排班选分类
六、架构特点
分层架构:通用框架层(抓取 / 提炼 / 分类 / 生成 / 存储 / 模型 / 飞书 / 调度)+ 领域配置层(config.json),核心代码零硬编码,配置化支持多行业快速接入(已落地医药、AI 互联网两个版本)





评论