为企业和个人提供本地化大模型推理解决方案,解决数据隐私和 API 成本问题。基于 RTX 6000 96GB 显存部署 Qwen 122B 等开源模型,支持 RAG 知识库、智能客服等场景。
点击空白处退出提示
语言技术
Python、MySQL、SQLServer、Torch系统类型
算法模型、Web3、Android应用行业分类
人工智能、机器深度学习开源组织
本地 AI 大模型推理平台 - 基于 Qwen 和 Ollama
为企业和个人提供本地化大模型推理解决方案,解决数据隐私和 API 成本问题。基于 RTX 6000 96GB 显存部署 Qwen 122B 等开源模型,支持 RAG 知识库、智能客服等场景。
1. 支持 Qwen、Llama 等主流开源大模型本地部署和推理;2. 提供 RAG 知识库问答功能,支持文档上传和智能检索;3. 内置 API 接口,支持第三方应用集成;4. 支持多轮对话、文本生成、代码生成等功能;5. 提供图形化管理界面,支持模型切换和参数配置。
负责整体架构设计和核心开发。使用 Python + FastAPI 构建后端服务,集成 Ollama 实现大模型推理,使用 LangChain 构建 RAG 管道。亮点:利用 96GB 显存实现 122B 大模型本地推理,响应速度快于 API 服务,数据完全本地化。难点:显存优化和推理速度优化。



评论