基于Qwen2.5-Coder-1.5b模型的agent开发与多模态功能实现

技术信息

语言技术
Python、MySQL、SQLServer系统类型
算法模型行业分类
人工智能参考价格
10000

作品详情

行业场景

人脸信息识别：在人脸身份数据库里的人脸，把图片传给AI，AI可直接告诉该人的身份信息。
语音交互：和AI的语音对话，暂时还未实现AI语音回复，但AI现在可精准通过文本回复。

功能介绍

1.使用LoRA技术微调Qwen2.5-Coder-1.5B，降低模型幻觉，增强模型回复能力，采用4bit量化提升模型推理速度，压缩体积从3.3GB到1GB，推理速度从15秒提升至1秒。2.注入工具，基于face_recognition等库实现模型人脸识别能力，训练之后准确度超过85%。3.基于transfomer训练模型对话能力，对5万条对话数据集训练，得到lora权重合并模型加速推理，显著提升模型交流能力。4.训练模型skills，自创建上百条对话数据锻炼模型调用tools能力，大大提高模型正确使用工具的能力。5.基于aip以及百度智能云，实现模型的语音交互能力，实现通过语音与模型对话。

项目实现

项目独立完成。
技术栈：transformers, pytorch, peft, chromadb, sentenceTransformer, pandas，face_recognition, aip
项目背景：基于模型提升模型幽默对话，记忆对话能力，赋予模型人脸识别能力，语音识别能力，基于语音的回复能力