智能网址爬虫/动态/关键词站内深度采集工具域名去重/标题匹配/结果导出

技术信息

语言技术
Python系统类型
Windows、MacOS、Linux行业分类
开发工具、工业互联网参考价格
399

作品详情

行业场景

本项目立项是为了解决公开网页资料整理效率低、手动复制信息耗时、竞品页面和服务目录难以批量归档的问题。适用于公开网站信息
采集、竞品分析、价格整理、联系方式线索提取、企业官网服务页整理等场景，帮助用户在合法公开页面范围内快速完成数据初筛和结
构化导出。

功能介绍

项目包含关键词智能采集、站内深度爬取、动态、可视化 Web 操作界面、Node.js 后端采集服务、CLI 命令行批处理、历史任务管理、
sitemap 导入、标题关键词匹配、域名去重、排除域名、线程和延迟控制等模块。系统可自动提取网页标题、描述、正文摘要、H1/H2/
H3、价格、邮箱、电话、图片、链接、表单、表格和 JSON-LD 结构化数据，并支持 CSV、JSON 和 result 文本结果导出。

项目实现

我负责项目需求整理、采集流程设计、前后端功能实现、任务状态管理、导出功能、Windows 绿色版启动器适配、使用说明和交付包整
理。项目使用 Node.js 实现后端服务和采集逻辑，前端采用原生 HTML/CSS/JavaScript 构建操作页面，支持静态抓取和可选
Playwright 动态渲染。实现亮点包括关键词驱动的站内链接发现、域名维度去重、端口自动切换、实时日志、暂停继续停止控制，以
及无需数据库的轻量化本地部署。