2023年8月: 开放域文本理解大模型 已上线,无需训练,即可完成实体识别、文本分类、阅读理解等多种任务! 2023年4月: - 如您需要自定义实体类型,请尝试零样本信息抽取能力。具体可以体验我们的创空间!当前在发力优化中,如有相关需求请加我们的钉钉群(4170025534)联系! 2022年12月: 训练所使用的序列理解统一框架AdaSeq发布,提供30+ SOTA的复现代码! 本方法采用Trasformer-CRF模型,使用StructBERT作为预训练模型底座,结合使用外部工具召回的相关句子作为额外上下文,使用Multi-view Traiig方式进行训练。
模型结构如下图所示: 可参考论文:Improvig Named Etity Recogitio by Exteral Cotext Retrievig ad Cooperative Learig 本模型主要用于给输入中文句子产出命名实体识别结果。用户可以自行尝试输入中文句子。具体调用方式请参考代码示例。 在安装ModelScope完成之后即可使用amed-etity-recogitio(命名实体识别)的能力, 默认单句长度不超过512。 准备训练配置,将下面的代码保存为trai.yaml。 该配置中的数据集为示例数据集toy_msra,如需使用自定义数据或调整参数,可参考《AdaSeq模型训练最佳实践》,准备数据或修改配置文件。AdaSeq中也提供了大量的模型、论文、比赛复现示例,欢迎大家使用。 运行命令开始训练。在GPU上训练需要至少6G显存,可以根据实际GPU情况调整batch_size等参数。 模型会保存在 可以将上文推理示例代码中的model_id替换为 本地的 保存的模型也可上传到ModelScope进行使用 本模型基于ecom-c-50cls数据集上训练,在垂类领域中文文本上的NER效果会有降低,请用户自行评测后决定如何使用。 模型在ecom-c-50cls测试数据评估结果: 各个类型的性能如下: 如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文:RANER介绍
What's New
模型描述
期望模型使用方式以及适用范围
如何使用
代码范例
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
er_pipelie = pipelie(Tasks.amed_etity_recogitio, 'damo/lp_raer_amed-etity-recogitio_chiese-base-ecom-50cls')
result = er_pipelie('eh 摇滚狗涂鸦拔印宽松牛仔裤 情侣款')
prit(result)
# {'output': [{'type': '品牌', 'start': 0, 'ed': 2, 'spa': 'eh'}, {'type': '品牌', 'start': 3, 'ed': 6, 'spa': '摇滚狗'}, {'type': '款式_其他', 'start': 6, 'ed': 8, 'spa': '涂鸦'}, {'type': '款式_其他', 'start': 8, 'ed': 10, 'spa': '拔印'}, {'type': '款式_其他', 'start': 10, 'ed': 12, 'spa': '宽松'}, {'type': '材质_面料', 'start': 12, 'ed': 14, 'spa': '牛仔'}, {'type': '产品_核心产品', 'start': 14, 'ed': 15, 'spa': '裤'}, {'type': '款式_其他', 'start': 16, 'ed': 19, 'spa': '情侣款'}]}
基于AdaSeq进行微调和推理(仅需一行命令)
pip istall adaseq
experimet:
exp_dir: experimets/
exp_ame: toy_msra
seed: 42
task: amed-etity-recogitio
dataset:
ame: damo/toy_msra
preprocessor:
type: sequece-labelig-preprocessor
max_legth: 100
data_collator: SequeceLabeligDataCollatorWithPaddig
model:
type: sequece-labelig-model
embedder:
model_ame_or_path: damo/lp_raer_amed-etity-recogitio_chiese-base-ecom-50cls
dropout: 0.1
use_crf: true
trai:
max_epochs: 5
dataloader:
batch_size_per_gpu: 8
optimizer:
type: AdamW
lr: 5.0e-5
param_groups:
- regex: crf
lr: 5.0e-1
optios:
cumulative_iters: 4
evaluatio:
dataloader:
batch_size_per_gpu: 16
metrics:
- type: er-metric
adaseq trai -c trai.yaml
./experimets/toy_msra/${yymmddHHMMSS.ffffff}/output/模型局限性以及可能的偏差
训练数据介绍
数据评估及结果
Dataset
Precisio
Recall
F1
ecom-c-50cls
73.19
75.21
74.18
Dataset
Precisio
Recall
F1
产品_修饰产品
26.23
10.88
15.38
产品_其他
71.39
78.07
74.58
产品_核心产品
77.45
80.25
78.82
人名_真实人名
63.16
85.71
72.73
人名_虚拟角色
0.0
0.0
0.0
使用方式_安装方式
0.0
0.0
0.0
使用方式_穿着方式
0.0
0.0
0.0
使用方法_其他
0.0
0.0
0.0
修饰_产品属性
61.54
61.32
61.43
修饰_其他
51.14
47.46
49.23
修饰_口味
57.35
63.93
60.47
修饰_外观描述
52.98
56.06
54.48
修饰_工作方式
58.82
55.56
57.14
修饰_评价体验
0.0
0.0
0.0
功能功效
72.39
79.86
75.94
品牌
78.19
78.92
78.55
地点地域_产地
41.38
81.82
54.96
地点地域_其他
45.45
23.81
31.25
地点地域_发货地
0.0
0.0
0.0
地点地域_商标产地
0.0
0.0
0.0
地点地域_适用地区
0.0
0.0
0.0
型号
44.05
50.89
47.23
尺寸规格_其他
80.36
90.0
84.91
尺寸规格_售卖规格
73.31
73.31
73.31
尺寸规格_外观尺寸
76.37
76.63
76.5
尺寸规格_指标参数
39.33
42.17
40.7
尺寸规格_重量
86.14
88.78
87.44
工艺
68.64
80.2
73.97
文化作品_书名
45.95
57.95
51.26
文化作品_其他
0.0
0.0
0.0
文化作品_影视名称
0.0
0.0
0.0
文化作品_游戏名称
0.0
0.0
0.0
材质_其他
70.59
68.57
69.57
材质_木质材质
88.66
89.58
89.12
材质_金属材质
60.61
65.93
63.16
材质_面料
83.4
88.52
85.88
款式_其他
77.37
82.39
79.8
款式_厚薄
90.67
87.18
88.89
款式_袖型
94.26
96.64
95.44
款式_裙型
0.0
0.0
0.0
款式_裤型
0.0
0.0
0.0
款式_鞋型
0.0
0.0
0.0
款式_领型
95.71
98.53
97.1
系列
33.46
29.72
31.48
组织机构
62.5
83.33
71.43
适用范围_其他
66.25
64.81
65.52
适用范围_适用人群
88.68
89.05
88.87
适用范围_适用场景
73.49
79.21
76.24
适用范围_适用季节
86.19
82.21
84.15
适用范围_适用对象
73.09
80.25
76.51
颜色_其他
73.47
81.82
77.42
颜色_色彩
85.04
84.05
84.54
颜色_配色方案
0.0
0.0
0.0
风格
91.08
93.76
92.4
相关论文以及引用信息
@iproceedigs{wag-etal-2021-improvig,
title = "Improvig Named Etity Recogitio by Exteral Cotext Retrievig ad Cooperative Learig",
author = "Wag, Xiyu ad
Jiag, Yog ad
Bach, Nguye ad
Wag, Tao ad
Huag, Zhogqiag ad
Huag, Fei ad
Tu, Kewei",
booktitle = "Proceedigs of the 59th Aual Meetig of the Associatio for Computatioal Liguistics ad the 11th Iteratioal Joit Coferece o Natural Laguage Processig (Volume 1: Log Papers)",
moth = aug,
year = "2021",
address = "Olie",
publisher = "Associatio for Computatioal Liguistics",
url = "https://aclathology.org/2021.acl-log.142",
pages = "1800--1812",
}
@iproceedigs{wag-etal-2022-damo,
title = "{DAMO}-{NLP} at {S}em{E}val-2022 Task 11: A Kowledge-based System for Multiligual Named Etity Recogitio",
author = "Wag, Xiyu ad
She, Yogliag ad
Cai, Jiog ad
Wag, Tao ad
Wag, Xiaobi ad
Xie, Pegju ad
Huag, Fei ad
Lu, Weimig ad
Zhuag, Yuetig ad
Tu, Kewei ad
Lu, Wei ad
Jiag, Yog",
booktitle = "Proceedigs of the 16th Iteratioal Workshop o Sematic Evaluatio (SemEval-2022)",
moth = jul,
year = "2022",
address = "Seattle, Uited States",
publisher = "Associatio for Computatioal Liguistics",
url = "https://aclathology.org/2022.semeval-1.200",
pages = "1457--1468",
}
@iproceedigs{zhag-etal-2022-domai,
title = "Domai-Specific NER via Retrievig Correlated Samples",
author = "Zhag, Xi ad
Yog, Jiag ad
Wag, Xiaobi ad
Hu, Xumig ad
Su, Yueheg ad
Xie, Pegju ad
Zhag, Meisha",
booktitle = "Proceedigs of the 29th Iteratioal Coferece o Computatioal Liguistics",
moth = oct,
year = "2022",
address = "Gyeogju, Republic of Korea",
publisher = "Iteratioal Committee o Computatioal Liguistics"
}
点击空白处退出提示







评论