在AI技术尚未规模化应用阶段,平台智能客服采用传统FAQ模式构建,核心依赖人工配置的“问题-答案”固定映射关系。该模式在业务初期(用户量级10万级、咨询以基础注册/计费问题为主)可满足基础需求,但随着平台服务SKU从50+增至300+,用户咨询量年均增长67%,其中复杂问题(如跨产品配置、故障排查、定制化方案咨询)占比从15%升至58%,传统客服体系逐渐陷入瓶颈。
本项目聚焦云平台全业务链路的客服交互场景,覆盖用户从“注册接入-使用配置-故障处理-续费升级-定制服务”的全生命周期,LLM大语言模型+RAG知识库实现智能问答,减轻人工客服团队的压力。
知识库同步与存储模块、智能检索匹配模块、LLM 问答生成模块、客户端交互响应模块
知识库同步与存储:每日夜间自动同步云平台帮助中心文档,对文档做双层处理 —— 全文切割后存入 Elasticsearch(ES)用于全文检索,文本向量化后存入向量库用于语义匹配,保障知识内容实时更新。
智能检索匹配:接收用户提问后,融合向量库语义检索与 ES 全文检索能力,按匹配度得分排序,筛选出与问题最贴合的知识库内容(取 TOP1)。
LLM 问答生成:将匹配到的高分知识库内容与预设提示词整合,送入大语言模型(LLM),由 LLM 解析问题并生成自然、精准的解答内容。
客户端交互响应:将 LLM 生成的答案实时返回至客户端,完成用户问答闭环。
- 负责项目全链路中间件部署与配置,包括Elasticsearch全文检索引擎、向量数据库Milvus、消息队列RabbitMQ等,基于Linux系统完成环境初始化、参数调优及高可用配置。其余组件(mysql、redis、minio、docker、nacos等)
- 制定环境标准化部署手册,通过Shell脚本实现中间件安装、依赖配置的自动化执行,降低部署差错率,将单环境部署时间从8小时缩短至2小时。
- 对接开发团队,完成应用服务与中间件的网络连通、权限配置,保障检索服务、问答服务等模块的正常通信。
- 主导LLM选型技术评估,结合项目需求(响应速度、推理精度、资源占用)测试对比主流开源模型(如glm-3/4、qwen系列、某云私有化未开源模型等),输出性能测试报告。
- 完成LLM私有化部署,基于Linux系统配置模型运行环境(Python依赖、CUDA工具包),通过Docker容器化封装模型服务,实现服务启停、版本切换的标准化管理。
GPU服务器(V100/T10/L40/L20/4090/A10)的硬件巡检与驱动适配,根据Linux系统版本安装匹配的GPU驱动(470.x系列)及CUDA Toolkit 11.7,解决驱动与系统内核的兼容性问题。
- 制定日常运维流程,包括知识库同步任务巡检、GPU资源定期维护、服务可用性监控等,保障系统7×24小时稳定运行。
- LLM大语言模型私有化部署,多GPU主机并行推理单一模型
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论