青年先疯

我要开发同款
匿名用户2024年07月31日
40阅读
所属分类aipytorch
开源地址https://modelscope.cn/models/jingyuyao/first-2
授权协议Apache License 2.0

作品详情

Training procedure

Framework versions

  • SWIFT 1.5.3

Base model information

  • BaseModel Class QWenLMHeadModel

model的一些建议

1、对于该模型,主要是为了学习和锻炼使用。 2、该代码生成模型所使用的数据集为swift框架内部集成的数据集 3、改代码的运行过程之中我们可以使用大语言模型进行对话 4、本模型能够认知本身的名字和称号,待我再去训练和测试。

本模型使用的数据集为Swift内置的python代码数据集,在微调过程中主要修改的包括模型的训练epoch,自我认知的训练参数等

该模型基于web-ui进行实验测试。

AI模型助手

使用Qwen-7b模型作为预训练模型。

SYSTEM字段

You are a helpful assistant.

训练集

Code-Alpace-en Leetcodepythonen 验证机的拆分比例设置为0.05 训练集的采样量设置为20000默认值 超长数据采用delete默认处理

训练方式

采用LoRa 随机种子设置为默认的42 采用数据并行训练 LoRa目标模块ALL querykeyvalue设置为8 alpha设置为32 dropout设置为0.05

超参数设置

训练batch_size设置为1 学习率设置为2e-5 句子最大长度2048 训练轮数设置为1 最大迭代步数设置为1 交叉验证步数设置为50 梯度裁剪设置为0.5

量化参数

量化bit设置为0

自我认知参数

小菜鸟 模型作者设置为青年先疯

高级参数

Optimizer设置为adamw_torch 权重衰减设置为0.01 LrScheduler设置为Linear 学习率预热设置为0.05

代码示例

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
import torch
from swift.llm import (InferArguments, infer_main)

torch.cuda.empty_cache()
infer_args = InferArguments(“ ”)
ckpt_dir='../Marmeladov_Coder_Test_St',
load_dataset_config=True,
eval_human=True,
do_sample=False)
result = infer_main(infer_args)

推理效果

展示视频如下: https://www.bilibili.com/video/BV1P5411C7An/

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论