项目职责:独立完成项目从0-1的设计工业级的中英文分词系统
算法筛选:深入分析项目难点,针对英文不能使用常规方法切分及新登陆词识别问题,提出采用制定提取模版、利用HMM模型和CRF模型进行序列标注的方式实现分词规范化,同时融入新词发现模型和NER词典,提升新登录词发现能力。
策划优化:通过CRF、BiLSTM_CRF等解码状态设置,降低计算难度,采用前缀词增加等方式,避免不必要搜索,提升运行速度。
词图构建:合理进行优先级布局,加入复合词典,由正则词典、专业领域词典、实体识别模型、序列标注模型、核心通用词典等,完成词图基础构建,基于此计算最佳路径,从根本解决问题
点击空白处退出提示













评论