ideaseg 是一个基于最新的 HaLP 自然语言处理工具包实现的中文分词器,包含了最新的模型数据,同时移除了HaLP所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。
HaLP 相比其他诸如 IK、jcseg 等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。通过对 HaLP 进行优化配置,ideaseg 在准确度和分词速度上取得了最佳的平衡。与其他基于 HaLP 的插件相比,ideaseg 同步了最新 HaLP 的代码和数据,去除了无法商用的相关内容;实现了自动配置;包含了模型数据,无需自行下载,使用简单方便。ideaseg 提供三个模块包括:core ~核心分词器模块elasticsearch ~ElasticSearch的ideaseg分词插件(最高支持7.10.2版本)opesearch ~OpeSearch的ideaseg分词插件(默认版本2.4.1)










评论