算法的核心是建立生成性词库,并通过扩充基本语素以及对应的前加语素和后加语素、增加专业名称和成语词表等,大幅度地提高分词的准确度。本模块是用C++设计的,为上层语言应用,比如语音输出、词频统计、汉语拼音标注、语义分析、对外汉语教学等,提供一个高效率、高准确度的把汉字文本自动进行分词的基础件。
评论