Yi-34B-Chat这个模型不错,modelscope目前没有gguf版本,这里提供一个。
主要两个文件
- ggml-model-f16.gguf
- ggml-model-Q3KM.gguf
1、一些注意事项:
a、ggml-model-Q3KM.gguf在m1 pro 32G上可以运行。做调试开发和自己使用完全没有问题。
b、Yi-34B-Chat聊天格式是chatml使用llama-cpp-python启动服务时请记得选择
python -m llama_cpp.server --model ./Yi-34B-Chat/ggml-model-Q3_K_M.gguf --n_gpu_layers -1 --n_ctx 2048 --chat_format chatml
当然如果你对聊天格式还不熟悉可以查看我这篇文章:
不得不说的Chat Format(聊天格式)——大模型CPU部署系列03
如果你不知道什么是gguf可以参看下面的文章:
揭开gguf神秘面纱——大模型CPU部署系列02.
如果你还想了解llama.cpp的量化方法, 可以关注我的大模型CPU部署系列.
大模型CPU部署系列
3、大多数模型对英文指令遵循比中文要好。
f16.gguf文件有64g之多,这里提供夸克网盘下载地址「ggml-model-f16.gguf」,
链接:https://pan.quark.cn/s/0ba9c2da2652
提取码:wVgD
4、对于小白可能还不知道如何下载modelscope的模型,如下操作:
# 首先安装git
# 再安装 lfs
git lfs install
GIT_LFS_SKIP_SMUDGE=1 git clone git clone https://www.modelscope.cn/limoncc/Yi-34B-Chat-GGUF.git
cd Yi-34B-Chat-GGUF
git lfs pull
5、License
The source code in this repo is licensed under the Apache 2.0 license. The Yi series models are fully open for academic research and free commercial usage with permission via applications.
All usage must adhere to the Model License Agreement 2.0. To apply for the official commercial license, please contact yi@01.ai.
评论