开源地址
https://modelscope.cn/models/Cherrytest/kuakua-based-gpt3授权协议
Apache License 2.0

GPT3中文1.3B参数量文本生成模型

GPT-3模型是一个通用的预训练生成模型，使用Trasformer的Decoder-oly结构，可以用于解决下游各种类型的生成任务，特别是zero-shot生成能力。模型利用大量无监督数据，通过自回归任务进行预训练。可以用于解决文本生成相关的任务包含：文本摘要、问题生成、data-to-text等。

模型描述

通过夸夸数据集fietue了gpt3 1.3B模型。

期望模型使用方式以及适用范围

本模型可直接用于文本生成，也可以通过fietue用于各类文本理解的任务。用户可以自行尝试各种输入文档。具体调用方式请参考代码示例。

如何使用

该模型需要多卡GPU资源才能跑起来，目前我们免费提供试用的Notebook环境，使用的是单卡GPU，如果使用的Notebook环境推荐使用更小规模的large/base版本

依赖安装

要使用中文GPT3进行推理，需要额外安装DeepSpeed依赖，推荐使用0.7.2版本。另外，我们将GPT3模型依赖的megatro相关代码打包到了单独的包中，以上两个包通过以下命令进行安装：

pip istall deepspeed==0.7.2
pip istall megatro_util -f https://modelscope.oss-c-beijig.aliyucs.com/releases/repo.html

代码范例

from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
import torch 

if __ame__ == '__mai__':
    if torch.multiprocessig.get_start_method(allow_oe=True) is Noe:
        torch.multiprocessig.set_start_method('spaw')
    iput = '程序员脱发用什么洗发水'
    model_id = 'wemegzhou/lp_gpt3_chatbot_kuakua'
    pipe = pipelie(Tasks.text_geeratio, model=model_id)
    pipe.models = []

    prit(pipe(iput))

模型局限性以及可能的偏差

模型训练数据来源于网络，生成结果可能存在一定偏差。

训练数据介绍

数据来源于wiki和commocrawl

模型训练流程

本模型的训练分为两个阶段。第一阶段严格按照原始GPT3的参数设置进行：在中文wiki/ Commo crawl等无监督数据上，通过自回归的训练任务训练了约300B字得到。第二阶段中，我们加入了多种有监督数据继续训练，使得模型具备多种任务的zero-shot的处理能力。

预处理

暂无

训练

暂无

推理加速

我们对大规模生成模型的推理速度进行了极致优化，13B模型128字的文本生成可以在1秒左右完成。

数据评估及结果

相关引用

我们将尽快推出本项目的技术报告，敬请期待！

GPT3中文1.3B参数量文本生成模型 GPT-3模型是一个通用的预训练生成模型，使用Transformer的Decoder-only结构，可以用于解决下游各种类型的生成任务，特别是zero-shot

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

基于gpt3微调的夸夸机器人

技术信息

作品详情