本地网页数据采集与知识库管理系统产品系统Vibe Coding

我要开发同款
Kai2026年06月04日
27阅读

技术信息

语言技术
PythonCSSJavaScript
系统类型
Web
行业分类
企业服务人工智能

作品详情

行业场景

这个项目主要面向网页公开信息整理和数据采集场景。很多资料分散在网站公告、文章列表、技术文档、RSS、Sitemap 或后台授权页面中,手工复制效率低,也不方便后续筛选和导出。因此我做了一个本地化的数据采集和处理系统,用来把网页中的标题、正文、链接、来源、时间等信息整理成结构化数据,适合资料归档、信息收集、数据清洗和表格交付等场景。

功能介绍

系统主要包括爬取控制、蜘蛛任务设计、知识库、数据处理、导出报告、工具箱和Workflow工作流模块。用户可以输入 URL 进行单页采集,也可以通过列表页、分页页、详情页、小范围站点等模式批量采集。采集前可以分析页面链接,判断哪些链接需要跟进或保存。采集完成后,数据会进入知识库,自动生成分类、质量分、关键词短语和来源统计,并支持搜索、筛选、清洗、去重和多格式导出。

项目实现

项目后端使用 Python 标准库实现本地 HTTP 服务,数据存储采用 SQLite,前端使用原生 HTML、CSS、JavaScript。采集部分基于 urllib,并支持 Playwright 本地登录浏览器模式。系统实现了 robots 检查、请求限速、失败重试、SSE 实时日志、FTS 全文搜索、质量评分、短语提取和多格式导出。Workflow 模块使用独立的数据表记录任务、运行步骤、关联数据和导出产物,方便追踪每次任务的执行过程和结果。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论