开源地址
https://modelscope.cn/models/tclf90/Yi-1.5-9B-Chat-16K-GPTQ-Int3授权协议
other

零一万物-1.5-9B-Chat-16K-GPTQ-It3-量化修复

原模型 01ai/Yi-1.5-9B-Chat-16K

【模型更新日期】

2024-05-25

【模型大小】

4.4GB

【量化修复】

调优了现有 AWQ 与 GPTQ 量化算法的量化策略。带有量化修复标签的It3模型，可以比肩默认AWQ与GPTQ算法的It8模型的能力。

量化修复可以极大减少模型的1.乱吐字、2.无限循环、3.长文能力丢失等量化损失造成的模型不可用的情况。
调优后的量化模型，AWQ与GPTQ模型在能力上没有表现出明显区别。同时考虑到GPTQ的vLLM引擎的并发推理效率最好，所以不再制作AWQ模型。
调优后的量化模型，it4与it3模型在能力上没有表现出明显区别，所以也不再制作it4模型。

【同期量化修复模型】

模型名称	磁盘大小（GB）
零一万物-1.5-6B-Chat-GPTQ-It3-量化修复	3.3
零一万物-1.5-9B-Chat-16K-GPTQ-It3-量化修复	4.4
零一万物-1.5-34B-Chat-16K-GPTQ-It3-量化修复	15.1
通义千问1.5-7B-Chat-GPTQ-It3-量化修复	5.1
通义千问1.5-14B-Chat-GPTQ-It3-量化修复	8.1
通义千问1.5-32B-Chat-GPTQ-It3-量化修复	15.4
通义千问1.5-72B-Chat-GPTQ-It3-量化修复	32.5
通义千问1.5-110B-Chat-GPTQ-It3-量化修复	47.9
opebuddy-llama3-70b-v21.1-8k-GPTQ-It3-量化修复	31.5

【模型下载】

from modelscope import sapshot_dowload
model_dir = sapshot_dowload('tclf90/模型名', cache_dir="本地路径")

【vLLM推理（目前仅限Liux）】

1. Pytho 简易调试

from trasformers import AutoTokeizer
from vllm import LLM, SampligParams

max_model_le, tp_size = 4000, 1
model_ame = "本地路径/tclf90/模型名称"   # 例："./my_models/tclf90/Qwe1.5-32B-Chat-GPTQ-It3"
model_ame = model_ame.replace('.', '___')
tokeizer = AutoTokeizer.from_pretraied(model_ame)
llm = LLM(model=model_ame, tesor_parallel_size=tp_size, max_model_le=max_model_le, trust_remote_code=True, eforce_eager=True)
samplig_params = SampligParams(temperature=0.7, max_tokes=256, stop_toke_ids=[tokeizer.eos_toke_id])

messages_list = [
    [{"role": "user", "cotet": "你是谁"}],
    [{"role": "user", "cotet": "介绍一下你自己"}],
    [{"role": "user", "cotet": "用pytho写一个快排函数"}],
]

prompt_toke_ids = [tokeizer.apply_chat_template(messages, add_geeratio_prompt=True) for messages i messages_list]

outputs = llm.geerate(prompt_toke_ids=prompt_toke_ids, samplig_params=samplig_params)

geerated_text = [output.outputs[0].text for output i outputs]
prit(geerated_text)

2. 类ChatGPT RESTFul API Server

>>> pytho -m vllm.etrypoits.opeai.api_server --model 本地路径/tclf90/模型名称

【Trasformer推理】

import torch
from trasformers import AutoTokeizer, AutoModelForCausalLM, GeeratioCofig

model_ame = "本地路径/tclf90/模型名称"   # 例："./my_models/tclf90/Qwe1.5-32B-Chat-GPTQ-It3"
model_ame = model_ame.replace('.', '___')
tokeizer = AutoTokeizer.from_pretraied(model_ame, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretraied(model_ame, trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()
model.geeratio_cofig = GeeratioCofig.from_pretraied(model_ame)
model.geeratio_cofig.pad_toke_id = model.geeratio_cofig.eos_toke_id

messages = [
    {"role": "user", "cotet": "你好你是谁"}
]
iput_tesor = tokeizer.apply_chat_template(messages, add_geeratio_prompt=True, retur_tesors="pt")
outputs = model.geerate(iput_tesor.to(model.device), max_ew_tokes=100)

result = tokeizer.decode(outputs[0][iput_tesor.shape[1]:], skip_special_tokes=True)
prit(result)

零一万物-1.5-9B-Chat-16K-GPTQ-Int3-量化修复原模型 01ai/Yi-1.5-9B-Chat-16K 【模型更新日期】 2024-05-25 【模型大小】 4.4GB 【量化

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

零一万物-1.5-9B-Chat-16K-GPTQ-Int3-量化修复

技术信息

作品详情