零一万物-1.5-9B-Chat-16K-GPTQ-Int3-量化修复

我要开发同款
匿名用户2024年07月31日
80阅读

技术信息

开源地址
https://modelscope.cn/models/tclf90/Yi-1.5-9B-Chat-16K-GPTQ-Int3
授权协议
other

作品详情

零一万物-1.5-9B-Chat-16K-GPTQ-It3-量化修复

原模型 01ai/Yi-1.5-9B-Chat-16K

【模型更新日期】

2024-05-25

【模型大小】

4.4GB

【量化修复】

调优了现有 AWQGPTQ 量化算法的量化策略。带有量化修复标签的It3模型,可以比肩默认AWQGPTQ算法的It8模型的能力。

  1. 量化修复可以极大减少模型的1.乱吐字2.无限循环3.长文能力丢失等量化损失造成的模型不可用的情况。

  2. 调优后的量化模型,AWQGPTQ模型在能力上没有表现出明显区别。同时考虑到GPTQvLLM引擎的并发推理效率最好,所以不再制作AWQ模型。

  3. 调优后的量化模型,it4it3模型在能力上没有表现出明显区别,所以也不再制作it4模型。

【同期量化修复模型】

模型名称 磁盘大小(GB)
零一万物-1.5-6B-Chat-GPTQ-It3-量化修复 3.3
零一万物-1.5-9B-Chat-16K-GPTQ-It3-量化修复 4.4
零一万物-1.5-34B-Chat-16K-GPTQ-It3-量化修复 15.1
通义千问1.5-7B-Chat-GPTQ-It3-量化修复 5.1
通义千问1.5-14B-Chat-GPTQ-It3-量化修复 8.1
通义千问1.5-32B-Chat-GPTQ-It3-量化修复 15.4
通义千问1.5-72B-Chat-GPTQ-It3-量化修复 32.5
通义千问1.5-110B-Chat-GPTQ-It3-量化修复 47.9
opebuddy-llama3-70b-v21.1-8k-GPTQ-It3-量化修复 31.5

【模型下载】

from modelscope import sapshot_dowload
model_dir = sapshot_dowload('tclf90/模型名', cache_dir="本地路径")

vLLM推理(目前仅限Liux)】

1. Pytho 简易调试

from trasformers import AutoTokeizer
from vllm import LLM, SampligParams

max_model_le, tp_size = 4000, 1
model_ame = "本地路径/tclf90/模型名称"   # 例:"./my_models/tclf90/Qwe1.5-32B-Chat-GPTQ-It3"
model_ame = model_ame.replace('.', '___')
tokeizer = AutoTokeizer.from_pretraied(model_ame)
llm = LLM(model=model_ame, tesor_parallel_size=tp_size, max_model_le=max_model_le, trust_remote_code=True, eforce_eager=True)
samplig_params = SampligParams(temperature=0.7, max_tokes=256, stop_toke_ids=[tokeizer.eos_toke_id])

messages_list = [
    [{"role": "user", "cotet": "你是谁"}],
    [{"role": "user", "cotet": "介绍一下你自己"}],
    [{"role": "user", "cotet": "用pytho写一个快排函数"}],
]

prompt_toke_ids = [tokeizer.apply_chat_template(messages, add_geeratio_prompt=True) for messages i messages_list]

outputs = llm.geerate(prompt_toke_ids=prompt_toke_ids, samplig_params=samplig_params)

geerated_text = [output.outputs[0].text for output i outputs]
prit(geerated_text)

2. 类ChatGPT RESTFul API Server

>>> pytho -m vllm.etrypoits.opeai.api_server --model 本地路径/tclf90/模型名称

【Trasformer推理】

import torch
from trasformers import AutoTokeizer, AutoModelForCausalLM, GeeratioCofig

model_ame = "本地路径/tclf90/模型名称"   # 例:"./my_models/tclf90/Qwe1.5-32B-Chat-GPTQ-It3"
model_ame = model_ame.replace('.', '___')
tokeizer = AutoTokeizer.from_pretraied(model_ame, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretraied(model_ame, trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()
model.geeratio_cofig = GeeratioCofig.from_pretraied(model_ame)
model.geeratio_cofig.pad_toke_id = model.geeratio_cofig.eos_toke_id

messages = [
    {"role": "user", "cotet": "你好你是谁"}
]
iput_tesor = tokeizer.apply_chat_template(messages, add_geeratio_prompt=True, retur_tesors="pt")
outputs = model.geerate(iput_tesor.to(model.device), max_ew_tokes=100)

result = tokeizer.decode(outputs[0][iput_tesor.shape[1]:], skip_special_tokes=True)
prit(result)

功能介绍

零一万物-1.5-9B-Chat-16K-GPTQ-Int3-量化修复 原模型 01ai/Yi-1.5-9B-Chat-16K 【模型更新日期】 2024-05-25 【模型大小】 4.4GB 【量化

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论