中文分词任务就是把连续的汉字分隔成具有语言语义学意义的词汇。中文的书写方式不像英文等日耳曼语系语言词与词之前显式的用空格分隔。为了让计算机理解中文文本,通常来说中文信息处理的第一步就是进行文本分词。 本方法采用char-BiLSTM-CRF模型,word-embeddig使用Chiese-Word-Vectors, 序列标注标签体系(B、I、E、S),四个标签分别表示单字处理单词的起始、中间、终止位置或者该单字独立成词。char-BiLSTM-CRF模型具体结构可以参考论文Neural Architectures for Named Etity Recogitio 电商领域的分词训练数据基于电商搜索Query和标题数据标注得到, 对比通用领域分词模型, 主要提升对电商领域特有的品牌、品类、商品修饰等词汇的切分准确率 本模型主要用于给输入中文句子产出分词结果。用户可以自行尝试输入中文句子。具体调用方式请参考代码示例。 在安装ModelScope完成之后即可使用chiese-word-segmetatio(中文分词)的能力, 默认单句长度不超过默认单句长度不超过126。如需增加单句的切分长度,可以修改TokeClassificatioTrasformersPreprocessor中的最大sequece长度。 本模型基于电商领域分词数据训练,在其它领域中文文本上的分词效果会有降低,请用户自行评测后决定如何使用。 模型采用1张NVIDIA V100机器训练, 超参设置如下: 模型在电商标题、Query测试数据评估结果: char-BiLSTM-CRF模型可以参考下列论文LSTM电商领域中文分词模型介绍
模型描述
- 输入: cos风修身吊带针织连衣裙女收腰显瘦小黑裙长裙
- 通用领域分词结果: cos 风 修身 吊带 针织 连衣裙 女 收 腰 显 瘦 小 黑裙 长裙
- 电商领域分词结果: cos风 修身 吊带 针织 连衣裙 女 收腰 显瘦 小黑裙 长裙
期望模型使用方式以及适用范围
如何使用
代码范例
from modelscope.models import Model
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
from modelscope.preprocessors import TokeClassificatioTrasformersPreprocessor
model_id = 'damo/lp_lstmcrf_word-segmetatio_chiese-ecommerce'
model = Model.from_pretraied(model_id)
tokeizer = TokeClassificatioTrasformersPreprocessor(model.model_dir)
pipelie_is = pipelie(task=Tasks.word_segmetatio, model=model, preprocessor=tokeizer)
result = pipelie_is(iput="收腰显瘦黑裙长裙")
prit (result)
# {'output': '收腰 显瘦 黑裙 长裙'}
模型局限性以及可能的偏差
训练
trai_epochs=10
max_sequece_legth=256
batch_size=64
learig_rate=5e-5
optimizer=AdamW
数据评估及结果
Model
Precisio
Recall
F1
BAStructBERT-Base
97.89
98.20
98.04
LSTMCRF
96.88
97.02
96.94
论文引用
@iproceedigs{lample-etal-2016-eural,
title = "Neural Architectures for Named Etity Recogitio",
author = "Lample, Guillaume ad
Ballesteros, Miguel ad
Subramaia, Sadeep ad
Kawakami, Kazuya ad
Dyer, Chris",
booktitle = "Proceedigs of the 2016 Coferece of the North {A}merica Chapter of the Associatio for Computatioal Liguistics: Huma Laguage Techologies",
moth = ju,
year = "2016",
address = "Sa Diego, Califoria",
publisher = "Associatio for Computatioal Liguistics",
url = "https://aclathology.org/N16-1030",
doi = "10.18653/v1/N16-1030",
pages = "260--270",
}
点击空白处退出提示







评论