1、该项目旨在解决企业文档搜索难、需要耗费比较多的人力时间筛选目标文档的问题,通过 RAG 提高答案内容的检索效率
2、场景:客服问答场景,通过对客服问答的 RAG 存储,拦截大部分用户提问客服的问题,缓解客服的压力
点击空白处退出提示
1、该项目旨在解决企业文档搜索难、需要耗费比较多的人力时间筛选目标文档的问题,通过 RAG 提高答案内容的检索效率
2、场景:客服问答场景,通过对客服问答的 RAG 存储,拦截大部分用户提问客服的问题,缓解客服的压力
1、功能模块:文档上传模块,包括 docx、pdf、markdown、txt、xlsx、url 文档类型。文档问答模块,包括问题重写、文档召回、文档重排、模型回答以及兜底功能跳转(拒答或者跳转人工)
2、项目功能:用户可以 通过上传自定义文档来更新可问答文档内容,并通过大模型问答来获取答案内容
我负责后端 RAG 开发,包括文档解析、切割、存储、问题重写、召回、重拍、回答工作内容
使用到了 mineru、pandas、markdownify、langchain、vllm、embeding、rerank、flask 等技术栈,通过版面识别的方式提高对多模态文档的解析能力,根据结构化分块的方式减少上下文的丢失,以及通过重排提高文档相关度,减少 token 消耗




评论