通义千问1.5-对话-fastllm

我要开发同款

匿名用户2024年07月31日

36阅读

所属分类ai、pretrained

开源地址https://modelscope.cn/models/tylunas/qwen1.5-chat-flm

授权协议other

作品详情

Qwen1.5-Chat

简介

Qwen1.5 是 Qwen2 的 beta 版本，一个基于Transformers架构解码器部分，在大量数据上预训练的语言模型。与之前发布的Qwen相比，改进之处包括：

6种型号尺寸，包括0.5B、1.8B、4B、7B、14B和72B；
显著改善了人类对聊天模型的偏好；
基座模型和聊天模型的多语言支持；
稳定支持32K上下文长度，适用于各种尺寸的模型
不需要“trustremotecode”。

有关更多详细信息，请参阅我们的博客文章以及 GitHub repo.

fastllm介绍

fastllm是纯c++实现，无第三方依赖的高性能大模型推理库

6~7B级模型在安卓端上也可以流畅运行

功能概述

? 纯c++实现，便于跨平台移植，可以在安卓上直接编译
? ARM平台支持NEON指令集加速，X86平台支持AVX指令集加速，NVIDIA平台支持CUDA加速，各个平台速度都很快就是了
? 支持浮点模型（FP32), 半精度模型(FP16), 量化模型(INT8, INT4) 加速
? 支持多卡部署，支持GPU + CPU混合部署
? 支持Batch速度优化
? 支持并发计算时动态拼Batch
? 支持流式输出，很方便实现打字机效果
? 支持python调用
? 前后端分离设计，便于支持新的计算设备
? 目前支持ChatGLM系列模型，各种LLAMA模型(ALPACA, VICUNA等)，BAICHUAN模型，QWEN模型，MOSS模型等

QWEN模型导出

# 需要先安装QWen环境
# 如果使用自己finetune的模型需要修改qwen2flm.py文件中创建tokenizer, model的代码
# 根据所需的精度，导出相应的模型
python3 tools/qwen2flm.py qwen-7b-fp16.flm float16 #导出float16模型
python3 tools/qwen2flm.py qwen-7b-int8.flm int8 #导出int8模型
python3 tools/qwen2flm.py qwen-7b-int4.flm int4 #导出int4模型

Qwen1.5

# 需要先安装QWen2环境（transformers >= 4.37.0）
# 根据所需的精度，导出相应的模型
python3 tools/llamalike2flm.py qwen1.5-7b-fp16.flm float16 "qwen/Qwen1.5-4B-Chat" #导出wen1.5-4B-Chat float16模型
python3 tools/llamalike2flm.py qwen1.5-7b-int8.flm int8 "qwen/Qwen1.5-7B-Chat" #导出Qwen1.5-7B-Chat int8模型
python3 tools/llamalike2flm.py qwen1.5-7b-int4.flm int4 "qwen/Qwen1.5-14B-Chat" #导出Qwen1.5-14B-Chat int4模型
# 最后一个参数可替换为模型路径

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论

重点城市程序员兼职推荐

北京程序员兼职上海程序员兼职深圳程序员兼职杭州程序员兼职广州程序员兼职成都程序员兼职南京程序员兼职武汉程序员兼职西安程序员兼职重庆程序员兼职郑州程序员兼职长沙程序员兼职苏州程序员兼职合肥程序员兼职厦门程序员兼职济南程序员兼职青岛程序员兼职天津程序员兼职大连程序员兼职福州程序员兼职石家庄程序员兼职沈阳程序员兼职太原程序员兼职无锡程序员兼职南昌程序员兼职哈尔滨程序员兼职南宁程序员兼职珠海程序员兼职宁波程序员兼职昆明程序员兼职东莞程序员兼职贵阳程序员兼职美国程序员兼职长春程序员兼职温州程序员兼职佛山程序员兼职常州程序员兼职呼和浩特程序员兼职兰州程序员兼职乌鲁木齐程序员兼职中山程序员兼职海口程序员兼职洛阳程序员兼职

更多

点击空白处退出提示

您好 👋

我们能提供什么帮助？

向我们发送消息

常见问题、使用帮助、人工咨询等

智能搜索手机访问

使用微信扫一扫