项目背景:自研实体识别系统,保障实体识别质量及系统良好扩展性。
项目职责:独立完成项目从0-1设计,主要架构:模型识别+AC自动机词库匹配+正则后处理
实体类别问题处理:深入分析实体类别、标签分布不均匀原因,提出通过数据增强+EDA加噪+标签截断等方式,缩小实体类别差距,提升训练数据质量。
应用效果及速度提升:通过ONNX实现推理加速,同时实现模型蒸馏,有效提升模型运行时间,提升应用场景效果。
对内沟通协调:高效沟通,指导完成数据整改,增加正则的后处理,实现实体规范化管理。
项目成果:各模型在hdfs、apache等6个训练集的准确率基本保持93%+,完成1700+日志模板结构化,满足业务场景需求,在知识图谱中发挥重要作用。
点击空白处退出提示














评论