华为小艺文档助理的RAG流程需要从用户上传的多种格式的文档中提取结构化数据或内容,构建并存储语义化索引,提供准确、细致的数据支撑。
点击空白处退出提示
语言技术
Python、Go系统类型
HarmonyOS应用、算法模型行业分类
人工智能
华为小艺文档助理的RAG流程需要从用户上传的多种格式的文档中提取结构化数据或内容,构建并存储语义化索引,提供准确、细致的数据支撑。
该项目使用了Python和Go两种开发语言,核心模块有大纲提取、正文抽取、版面分析、图片解析、表格解析、混合重排等。
其中任务调度和工具调用由Go语言实现,具体的解析算法由Python实现。
通过Pipeline并行的方案减少模块间等待时延、使用任务队列的方式按页分发解析任务、索引异步构建入库等优化手段,将解析时延从60+秒优化至6.49秒,成功率提升至95%+,摘要类意图Query的端到端耗时减少72%。
同时还针对不同场景提供了快、慢、深解析等不同程度的解析策略。




评论