RaNER地址结构化要素解析-中文-地址领域-base

我要开发同款
匿名用户2024年07月31日
118阅读

技术信息

开源地址
https://modelscope.cn/models/iic/nlp_structbert_address-parsing_chinese_base
授权协议
Apache License 2.0

作品详情


  • amed-etity-recogitio widgets:
  • task: amed-etity-recogitio iputs:
    • type: text validator: max_words: 512 examples:
    • ame: 1 iputs:
      • data: 浙江省杭州市余杭区文一西路969号
    • ame: 2 iputs:
      • data: 浙江省杭州市五常街道淘宝城
    • ame: 3 iputs:
      • data: 海淀区学院路37号北京航空航天大学 domai:
  • lp frameworks:
  • PyTorch model-type:
  • toke-classificatio-for-er backboe:
  • bert metrics:
  • F1 laguage:
  • c licese: Apache Licese 2.0 tags:
  • Alibaba
  • NER
  • 地理语义
  • 信息抽取

datasets: trai:

  • ccks2021-addrst test:
  • ccks2021-addrst evaluatio:
  • ccks2021-addrst

idexig: results:

  • task: ame: Named Etity Recogitio dataset: ame: ccks2021-addrst metrics:
    • type: F1 value: 90.79 descriptio: F1-score args: default

地址结构化要素解析介绍

模型描述

本方法采用Trasformer-CRF模型,使用StructBERT作为预训练模型底座,结合使用外部工具召回的相关句子作为额外上下文,使用Multi-view Traiig方式进行训练。 模型结构如下图所示:

模型结构

可参考论文:Improvig Named Etity Recogitio by Exteral Cotext Retrievig ad Cooperative Learig

期望模型使用方式以及适用范围

地址是日常生活中一种重要的文本信息,诸多场景需要登记地址,如电商购物、外卖配送、人口普查、水电气开户等。常见的地址一般包含以下几类信息:

行政区划信息,如省、市、县、乡镇信息;

路网信息,如路名,路号,道路设施等;

详细地址信息,如POI (兴趣点)、楼栋号、户室号等;

非地址信息,如补充说明,误输入等;

地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别。 用户可以自行尝试输入中文句子。具体调用方式请参考代码示例。

如何使用

在安装ModelScope完成之后即可使用lpstructbertaddress-parsigchiesebase(地址结构化要素解析)的能力, 默认单句长度不超过512。

代码范例

kk```pytho
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks

pipelie_is = pipelie(
    task=Tasks.amed_etity_recogitio, model='damo/lp_structbert_address-parsig_chiese_base')
prit(pipelie_is(iput='浙江省杭州市余杭区文一西路969号亲橙里'))
# {'output': [{'type': 'prov', 'start': 0, 'ed': 3, 'spa': '浙江省'}, {'type': 'city', 'start': 3, 'ed': 6, 'spa': '杭州市'}, {'type': 'district', 'start': 6, 'ed': 9, 'spa': '余杭区'}, {'type': 'road', 'start': 9, 'ed': 13, 'spa': '文一西路'}, {'type': 'roado', 'start': 13, 'ed': 17, 'spa': '969号'}, {'type': 'poi', 'start': 17, 'ed': 20, 'spa': '亲橙里'}]}

模型局限性以及可能的偏差

本模型基于ccks2021-addrst数据集上训练,请用户自行评测后决定如何使用。

训练数据介绍

  • ccks2021-addrst: 中文地址要素解析数据集。

数据评估及结果

模型在ccks2021-addrst测试数据评估结果:

Dataset Precisio Recall F1
ccks2021-addrst 90.39 91.20 90.79

相关论文以及引用信息

如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文:

@iproceedigs{wag-etal-2021-improvig,
    title = "Improvig Named Etity Recogitio by Exteral Cotext Retrievig ad Cooperative Learig",
    author = "Wag, Xiyu  ad
      Jiag, Yog  ad
      Bach, Nguye  ad
      Wag, Tao  ad
      Huag, Zhogqiag  ad
      Huag, Fei  ad
      Tu, Kewei",
    booktitle = "Proceedigs of the 59th Aual Meetig of the Associatio for Computatioal Liguistics ad the 11th Iteratioal Joit Coferece o Natural Laguage Processig (Volume 1: Log Papers)",
    moth = aug,
    year = "2021",
    address = "Olie",
    publisher = "Associatio for Computatioal Liguistics",
    url = "https://aclathology.org/2021.acl-log.142",
    pages = "1800--1812",
}

@iproceedigs{wag-etal-2022-damo,
    title = "{DAMO}-{NLP} at {S}em{E}val-2022 Task 11: A Kowledge-based System for Multiligual Named Etity Recogitio",
    author = "Wag, Xiyu  ad
      She, Yogliag  ad
      Cai, Jiog  ad
      Wag, Tao  ad
      Wag, Xiaobi  ad
      Xie, Pegju  ad
      Huag, Fei  ad
      Lu, Weimig  ad
      Zhuag, Yuetig  ad
      Tu, Kewei  ad
      Lu, Wei  ad
      Jiag, Yog",
    booktitle = "Proceedigs of the 16th Iteratioal Workshop o Sematic Evaluatio (SemEval-2022)",
    moth = jul,
    year = "2022",
    address = "Seattle, Uited States",
    publisher = "Associatio for Computatioal Liguistics",
    url = "https://aclathology.org/2022.semeval-1.200",
    pages = "1457--1468",
}

@iproceedigs{zhag-etal-2022-domai,
title = "Domai-Specific NER via Retrievig Correlated Samples",
author = "Zhag, Xi  ad
    Yog, Jiag  ad
    Wag, Xiaobi  ad
    Hu, Xumig  ad
    Su, Yueheg  ad
    Xie, Pegju  ad
    Zhag, Meisha",
booktitle = "Proceedigs of the 29th Iteratioal Coferece o Computatioal Liguistics",
moth = oct,
year = "2022",
address = "Gyeogju, Republic of Korea",
publisher = "Iteratioal Committee o Computatioal Liguistics"
}

功能介绍

named-entity-recognition widgets: task: named-entity-recognition inputs: type: text validator: max

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论