通义千问1.5-对话-fastllm

我要开发同款
匿名用户2024年07月31日
36阅读
所属分类ai、pretrained
开源地址https://modelscope.cn/models/tylunas/qwen1.5-chat-flm
授权协议other

作品详情

Qwen1.5-Chat

简介

Qwen1.5 是 Qwen2 的 beta 版本,一个基于Transformers架构解码器部分,在大量数据上预训练的语言模型。与之前发布的Qwen相比,改进之处包括:

  • 6种型号尺寸,包括0.5B、1.8B、4B、7B、14B和72B;
  • 显著改善了人类对聊天模型的偏好;
  • 基座模型和聊天模型的多语言支持;
  • 稳定支持32K上下文长度,适用于各种尺寸的模型
  • 不需要“trustremotecode”。

有关更多详细信息,请参阅我们的博客文章 以及 GitHub repo.

fastllm介绍

fastllm是纯c++实现,无第三方依赖的高性能大模型推理库

6~7B级模型在安卓端上也可以流畅运行

功能概述

  • ? 纯c++实现,便于跨平台移植,可以在安卓上直接编译
  • ? ARM平台支持NEON指令集加速,X86平台支持AVX指令集加速,NVIDIA平台支持CUDA加速,各个平台速度都很快就是了
  • ? 支持浮点模型(FP32), 半精度模型(FP16), 量化模型(INT8, INT4) 加速
  • ? 支持多卡部署,支持GPU + CPU混合部署
  • ? 支持Batch速度优化
  • ? 支持并发计算时动态拼Batch
  • ? 支持流式输出,很方便实现打字机效果
  • ? 支持python调用
  • ? 前后端分离设计,便于支持新的计算设备
  • ? 目前支持ChatGLM系列模型,各种LLAMA模型(ALPACA, VICUNA等),BAICHUAN模型,QWEN模型,MOSS模型等

QWEN模型导出

# 需要先安装QWen环境
# 如果使用自己finetune的模型需要修改qwen2flm.py文件中创建tokenizer, model的代码
# 根据所需的精度,导出相应的模型
python3 tools/qwen2flm.py qwen-7b-fp16.flm float16 #导出float16模型
python3 tools/qwen2flm.py qwen-7b-int8.flm int8 #导出int8模型
python3 tools/qwen2flm.py qwen-7b-int4.flm int4 #导出int4模型
  • Qwen1.5
# 需要先安装QWen2环境(transformers >= 4.37.0)
# 根据所需的精度,导出相应的模型
python3 tools/llamalike2flm.py qwen1.5-7b-fp16.flm float16 "qwen/Qwen1.5-4B-Chat" #导出wen1.5-4B-Chat float16模型
python3 tools/llamalike2flm.py qwen1.5-7b-int8.flm int8 "qwen/Qwen1.5-7B-Chat" #导出Qwen1.5-7B-Chat int8模型
python3 tools/llamalike2flm.py qwen1.5-7b-int4.flm int4 "qwen/Qwen1.5-14B-Chat" #导出Qwen1.5-14B-Chat int4模型
# 最后一个参数可替换为模型路径
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论