立项原因:传统市场调研依赖人工在搜索引擎、社交媒体、新闻站点等多渠道收集信息,耗时长、成本高且分析维度单一。本项目旨在解决企业“市场情报获取慢、分析浅、报告制作耗时”的痛点,实现从信息输入到可视化报告的全流程自动化。
行业场景:面向企业市场部、战略规划部或咨询公司,用于快速进行竞品分析、舆情监控、新品上市前市场扫描等场景。用户输入一个关键词或竞品网址,系统即可自动完成全网信息搜集、深度分析并生成结构化报告,将单次调研周期从数小时压缩至分钟级。
点击空白处退出提示
立项原因:传统市场调研依赖人工在搜索引擎、社交媒体、新闻站点等多渠道收集信息,耗时长、成本高且分析维度单一。本项目旨在解决企业“市场情报获取慢、分析浅、报告制作耗时”的痛点,实现从信息输入到可视化报告的全流程自动化。
行业场景:面向企业市场部、战略规划部或咨询公司,用于快速进行竞品分析、舆情监控、新品上市前市场扫描等场景。用户输入一个关键词或竞品网址,系统即可自动完成全网信息搜集、深度分析并生成结构化报告,将单次调研周期从数小时压缩至分钟级。
功能模块:系统由Java主后端、Python爬虫微服务、Vue 3前端以及Dify AI工作流四部分组成。功能包括:任务调度、信息采集、AI分析、流式输出、报告渲染等。
主要功能描述:
自动化信息采集:根据用户输入,自动调度Playwright爬虫服务,对指定网页或搜索引擎结果进行深度清洗与正文提取,获取高质量的原始信息。
流式AI深度分析:将采集的信息组装成上下文,调用Dify工作流中的DeepSeek-V3模型进行总结、对比、趋势判断等深度分析,并通过SSE接口实现分析过程的实时流式返回。
可视化报告生成:AI输出的结构化数据(JSON)和文本(Markdown)被前端分离。文本部分直接渲染,JSON数据则动态驱动ECharts生成柱状图、饼图等专业图表,最终合成一份图文并茂的可用于决策的营销报告。
我的具体任务:我负责了系统架构设计、Java后端开发(对接Dify API与爬虫服务)、Dify复杂工作流编排、以及前端数据解析与图表渲染的关键算法实现。
技术栈与亮点难点:
攻克流式输出难题:针对长文本分析易引发网关超时(HTTP 504)的问题,采用Java后端对接Dify的SSE(Server-Sent Events)流式接口,实现了AI思考过程和报告片段的实时增量推送,提升了系统可靠性与用户体验。
解决AI输出不可控问题:通过多轮提示词工程,约束LLM输出“文本+标准化JSON数据块”的混合格式。在前端,我开发了基于正则与“智能括号匹配”的解析算法,能精准分离并提取JSON,确保了ECharts图表100%稳定渲染,无白屏故障。
微服务化与高可用部署:将高负荷的爬虫任务独立为Python(FastAPI)微服务,具备抗反爬能力。使用Docker Compose对所有组件(Java, Python, Vue, MySQL, Redis)进行全栈容器化编排,实现了开发生产环境一致与一键高可用部署。




评论