匿名用户2024年07月31日
176阅读

技术信息

开源地址
https://modelscope.cn/models/linjian19811027/testmodel
授权协议
Apache License 2.0

作品详情

基于StructBERT的中文Base预训练模型介绍

StructBERT的中文Large预训练模型是使用wikipedia数据和masked laguage model任务训练的中文自然语言理解预训练模型。

模型描述

我们通过引入语言结构信息的方式,将BERT扩展为了一个新模型--StructBERT。我们通过引入两个辅助任务来让模型学习字级别的顺序信息和句子级别的顺序信息,从而更好的建模语言结构。详见论文StructBERT: Icorporatig Laguage Structures ito Pre-traiig for Deep Laguage Uderstadig StructBERT

本模型为Base规模(Layer-12 / Hidde-768 / Head-12),参数规模约为102M。

期望模型使用方式以及适用范围

本模型主要用于中文相关下游任务微调。用户可以基于自有训练数据进行微调。具体调用方式请参考代码示例。

如何使用

在安装完成ModelScope-lib之后即可基于lpstructbertbackboebasestd进行下游任务fietue

代码范例

from modelscope.metaifo import Preprocessors
from modelscope.msdatasets import MsDataset
from modelscope.traiers import build_traier
from modelscope.utils.costat import Tasks


# 通过这个方法修改cfg
def cfg_modify_f(cfg):
    # 将backboe模型加载到句子相似度的模型类中
    cfg.task = Tasks.setece_similarity
    # 使用句子相似度的预处理器
    cfg['preprocessor'] = {'type': Preprocessors.se_sim_tokeizer}

    # 演示代码修改,正常使用不用修改
    cfg.trai.dataloader.workers_per_gpu = 0
    cfg.evaluatio.dataloader.workers_per_gpu = 0

    # 补充数据集的特性
    cfg['dataset'] = {
        'trai': {
            # 实际label字段内容枚举,在训练backboe时需要传入
            'labels': ['0', '1'],
            # 第一个字段的key
            'first_sequece': 'setece1',
            # 第二个字段的key
            'secod_sequece': 'setece2',
            # label的key
            'label': 'label',
        }
    }
    # lr_scheduler的配置
    cfg.trai.lr_scheduler.total_iters = it(le(dataset['trai']) / 32) * cfg.trai.max_epochs
    retur cfg

#使用clue的afqmc进行训练
dataset = MsDataset.load('clue', subset_ame='afqmc')
kwargs = dict(
    model='damo/lp_structbert_backboe_base_std',
    trai_dataset=dataset['trai'],
    eval_dataset=dataset['validatio'],
    work_dir='/tmp',
    cfg_modify_f=cfg_modify_f)

#使用lp-base-traier
traier = build_traier(ame='lp-base-traier', default_args=kwargs)
traier.trai()

模型局限性以及可能的偏差

基于中文数据进行训练,模型训练数据有限,效果可能存在一定偏差。

训练数据介绍

数据来源于https://huggigface.co/datasets/wikipedia

模型训练流程

在中文wiki等无监督数据上,通过MLM以及"模型描述"章节介绍的两个辅助任务训练了约300B字得到。

数据评估及结果

暂无

相关论文以及引用信息

如果我们的模型对您有帮助,请您引用我们的文章:

@article{wag2019structbert,
  title={Structbert: Icorporatig laguage structures ito pre-traiig for deep laguage uderstadig},
  author={Wag, Wei ad Bi, Bi ad Ya, Mig ad Wu, Che ad Bao, Zuyi ad Xia, Jiaga ad Peg, Liwei ad Si, Luo},
  joural={arXiv preprit arXiv:1908.04577},
  year={2019}
}

功能介绍

基于StructBERT的中文Base预训练模型介绍 StructBERT的中文Large预训练模型是使用wikipedia数据和masked language model任务训练的中文自然语言理解预

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论