这个项目主要面向网页公开信息整理和数据采集场景。很多资料分散在网站公告、文章列表、技术文档、RSS、Sitemap 或后台授权页面中,手工复制效率低,也不方便后续筛选和导出。因此我做了一个本地化的数据采集和处理系统,用来把网页中的标题、正文、链接、来源、时间等信息整理成结构化数据,适合资料归档、信息收集、数据清洗和表格交付等场景。
点击空白处退出提示
这个项目主要面向网页公开信息整理和数据采集场景。很多资料分散在网站公告、文章列表、技术文档、RSS、Sitemap 或后台授权页面中,手工复制效率低,也不方便后续筛选和导出。因此我做了一个本地化的数据采集和处理系统,用来把网页中的标题、正文、链接、来源、时间等信息整理成结构化数据,适合资料归档、信息收集、数据清洗和表格交付等场景。
系统主要包括爬取控制、蜘蛛任务设计、知识库、数据处理、导出报告、工具箱和Workflow工作流模块。用户可以输入 URL 进行单页采集,也可以通过列表页、分页页、详情页、小范围站点等模式批量采集。采集前可以分析页面链接,判断哪些链接需要跟进或保存。采集完成后,数据会进入知识库,自动生成分类、质量分、关键词短语和来源统计,并支持搜索、筛选、清洗、去重和多格式导出。
项目后端使用 Python 标准库实现本地 HTTP 服务,数据存储采用 SQLite,前端使用原生 HTML、CSS、JavaScript。采集部分基于 urllib,并支持 Playwright 本地登录浏览器模式。系统实现了 robots 检查、请求限速、失败重试、SSE 实时日志、FTS 全文搜索、质量评分、短语提取和多格式导出。Workflow 模块使用独立的数据表记录任务、运行步骤、关联数据和导出产物,方便追踪每次任务的执行过程和结果。





评论