Chinese-BERT-wwm 中文 BERT-wwm 系列模型开源项目

我要开发同款
匿名用户2023年05月16日
118阅读
开发技术Python
所属分类LLM(大语言模型)、人工智能
授权协议Apache-2.0

作品详情

Pre-TrainingwithWholeWordMaskingforChineseBERT(中文BERT-wwm系列模型)

在自然语言处理领域中,预训练语言模型(Pre-trainedLanguageModels)已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展,哈工大讯飞联合实验室(HFL)发布了基于全词遮罩(WholeWordMasking)技术的中文预训练模型BERT-wwm,以及与此技术密切相关的模型:BERT-wwm-ext、RoBERTa-wwm-ext、RoBERTa-wwm-ext-large、RBT3、RBTL3。

WholeWordMasking(wwm),暂翻译为全词Mask或整词Mask,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。在全词Mask中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask,即全词Mask。

需要注意的是,这里的mask指的是广义的mask(替换成[MASK];保持原词汇;随机替换成另外一个词),并非只局限于单词替换成[MASK]标签的情况。更详细的说明及样例请参考:#4

同理,由于谷歌官方发布的BERT-base,Chinese中,中文是以字为粒度进行切分,没有考虑到传统NLP中的中文分词(CWS)。HFL 将全词Mask的方法应用在了中文中,使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大LTP作为分词工具,即对组成同一个词的汉字全部进行Mask。

下述文本展示了全词Mask的生成样例。 注意:为了方便理解,下述例子中只考虑替换成[MASK]标签的情况。

说明样例原始文本使用语言模型来预测下一个词的probability。分词文本使用语言模型来预测下一个词的probability。原始Mask输入使用语言[MASK]型来[MASK]测下一个词的pro[MASK]##lity。全词Mask输入使用语言[MASK][MASK]来[MASK][MASK]下一个词的[MASK][MASK][MASK]。中文模型下载本目录中主要包含base模型,故HFL不在模型简称中标注base字样。对于其他大小的模型会标注对应的标记(例如large)。

BERT-large模型:24-layer,1024-hidden,16-heads,330MparametersBERT-base模型:12-layer,768-hidden,12-heads,110Mparameters模型简称语料Google下载讯飞云下载RBT6,ChineseEXT数据[1]-TensorFlow(密码XNMA)RBT4,ChineseEXT数据[1]-TensorFlow(密码e8dN)RBTL3,ChineseEXT数据[1]TensorFlowPyTorchTensorFlow(密码vySW)RBT3,ChineseEXT数据[1]TensorFlowPyTorchTensorFlow(密码b9nx)RoBERTa-wwm-ext-large,ChineseEXT数据[1]TensorFlowPyTorchTensorFlow(密码u6gC)RoBERTa-wwm-ext,ChineseEXT数据[1]TensorFlowPyTorchTensorFlow(密码Xe1p)BERT-wwm-ext,ChineseEXT数据[1]TensorFlowPyTorchTensorFlow(密码4cMG)BERT-wwm,Chinese中文维基TensorFlowPyTorchTensorFlow(密码07Xj)BERT-base,ChineseGoogle中文维基GoogleCloud-BERT-base,MultilingualCasedGoogle多语种维基GoogleCloud-BERT-base,MultilingualUncasedGoogle多语种维基GoogleCloud-[1]EXT数据包括:中文维基百科,其他百科、新闻、问答等数据,总词数达5.4B。

查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论