多模态视觉问答系统:这个图片问答 Agent 项目的核心价值在于 将视觉信息转化为可交互的知识问答 ,可以广泛应用于需要"看图说话"的场景。通过结合图片识别、搜索能力和大语言模型,能够实现智能化的图文问答服务。
点击空白处退出提示
多模态视觉问答系统:这个图片问答 Agent 项目的核心价值在于 将视觉信息转化为可交互的知识问答 ,可以广泛应用于需要"看图说话"的场景。通过结合图片识别、搜索能力和大语言模型,能够实现智能化的图文问答服务。
1. 多模态输入支持
2. 智能决策规划
用户提问 → 分析问题类型 → 判断是否需要搜索 → 选择搜索策略
3. 多源信息检索:包含使用google接口的图片搜索、文字搜索以及Jina Reader的摘要提取
4. 信息整合与摘要
5. 完整对话记录
6. 结果保存与导出
7. 其他一些与项目相关的功能
- 架构设计 :基于LangGraph设计模块化工作流引擎
- 节点开发 :实现5个核心节点(Planner/Search/Reader/Finalize/Save)
- API集成 :完成豆包、Google Search、Jina Reader的集成
- 状态管理 :设计三层状态架构(Input/Output/Full)
- 数据处理 :实现数据集加载、批量处理、结果写入
- 错误处理 :实现重试机制、异常捕获、断点续传
- 性能优化 :多进程处理、缓存策略、请求节流




评论