中文纠错（统计学习）通用工具_系统开发案例-程序员客栈

技术信息

语言技术
Java、Shell、ElasticSearch、Maven、NLP系统类型
算法模型、Linux、Windows行业分类
人工智能、工业互联网参考价格
10000演示地址
$LISF_SEARCH_CORRECT_HOME/correct.bat

作品详情

行业场景

中文纠错旨在解决 “人机交互中因文本错误而产生的效率下降、信息失真、专业度受损和用户挫败感” 这一系列产品体验问题。
中文纠错技术已渗透到几乎所有涉及文本处理的行业，不同行业有其特定的错误类型和需求重点。
政务与公文场景：政府办公厅公文流转系统、政务新媒体发布前置审核
传媒与出版场景：新闻采编系统智能校对模块、图书出版社辅助校对工具
电商与搜索推荐场景：搜索引擎的“您是不是要找”、电商搜索框的自动补全与纠错、商品信息清洗
智能客服与呼叫中心场景：金融/电信客服工单自动摘要前的文本清洗、智能语音机器人的前置理解模块
教育与学习场景：AI作文批改系统、对外汉语学习APP、字词听写辅助工具
办公与协作场景：办公软件（Word/WPS）的拼写检查、输入法的智能纠错、邮件客户端预发检查
医疗与法律场景：病历质控系统、合同智能审查与比对系统

功能介绍

设计了知识库收集模块、统计模型构建模块、智能推荐模块、中文纠错模块、其他（配置、常量、测试工具等）模块。
知识库收集模块：用于根据原始种子ID数据从来源索引中获取高质量数据后，对数据进行全方位地分析，挖掘出与之对应的各种强关联关键词，并对每个关键词进行分类，最后对关键词关联对象按关键词进行生序排序。
统计模型构建模块：用于对知识库收集模块输出的高质量关键字及其关联对象知识，进行各种文本及字符统计，并利用双数组Trie树（DAT）数据结构构建超高效率统计模型，最后对其进行序列化输出。
智能推荐模块：用于使用统计模型构建模块输出的模型，对用户输入的文本进行全链路的高效序列分析，并使用字符统计数据进行初排后过召回topN，在此基础上使用范围统计数据进行粗排后过召回topM，最后利用高效数据堆结构获取最优topK进行智能推荐。
中文纠错模块：用于借助智能推荐模块，对用户输入的文本转拼音后进行推荐分析判断是否需要对其进行纠错，如果需要纠错会对推荐列表进行窗口对齐，再进行加权计票统计后概率化综合分值，最后选取概率最高的几个纠错结果。
其他（配置、常量、测试工具等）模块：用于辅助以上四个模块的辅助模块。

项目实现

实现了无监督概率模型、懒惰学习简化训练、关键词泛化提高精度、离线统计加速模型、前缀树加速统计、索引构建加速模型、全链路序列分析、多次排召增强准度、堆结构加速筛选、窗口对齐增强准度
- 无监督概率模型：使用统计学习实现了对知识库的无监督概率模型构建，最大程度地降低了标数据的人工成本。
- 懒惰学习简化训练：模型采用懒惰学策略简化训练过程，模型训练过程的工作主要集中在选取高质量的数据上，最大程度地降低了模型的训练成本。
- 关键词泛化提高精度：对高质量数据进行全方位地分析，最大限度的泛化出与其强相关的所有关键词，并对每个关键词进行分类，最终提高了知识库模型的准确率与召回率。
- 离线统计加速模型：为了最大限度地提升模型的效率，采用离线模式对知识库数据进行全方位的文本、字符统计及各种可用分值提前预计算，以供在线推荐与分析时快速高效地获取。
- 前缀树加速统计：利用前缀共享的原理，统计每条关键词从开始位置到每个字符位置在知识库模型中的作用域范围。
- 索引构建加速模型：构建知识库模型的双数组Trie树（DAT）索引，这种索引的查询时间复杂度是查询串的有效匹配长度，与索引的数据量大小无关，所以数据量越大该索引结构的优势越明显。
- 全链路序列分析：在智能推荐过程中，利用知识库模型统计信息进行全链路序列分析，最大化地增强了召回率同时保证了准确率。
- 多次排召增强准度：通过使用字符统计数据进行初排后过召回topN，在此基础上使用范围统计数据进行粗排后过召回topM，最后对该召回结果进行精排获取最优topK进行智能推荐。
- 堆结构加速筛选：智能推荐在最终筛选最优topK时采用堆排序，只对所需部分进行全局精排，进一步提高了推荐算法的速度。
- 窗口对齐增强准度：纠错时对智能推荐列表进行窗口对齐后，筛选优质投票者后加权计票统计，最终概率化综合分值提高纠错准度。