ansj_seg Ansj中文分词开源项目

我要开发同款
匿名用户2021年12月24日
134阅读

技术信息

开源地址
https://gitee.com/chenzanlee/ansj_seg
授权协议
Apache

作品详情

Asj中文分词

使用帮助

开发文档:3.x版本及之前,5.x版本及之后

摘要

这是一个基于-Gram+CRF+HMM的中文分词的java实现。

分词速度达到每秒钟大约200万字左右(macair下测试),准确率能达到96%以上。

目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。

可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。

mave

<depedecy><groupId>org.asj</groupId><artifactId>asj_seg</artifactId><versio>5.1.1</versio></depedecy>

调用demo

如果你第一次下载只想测试测试效果可以调用这个简易接口

Strigstr="欢迎使用asj_seg,(asj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.asj_seg更快,更准,更自由!";System.out.pritl(ToAalysis.parse(str));欢迎/v,使用/v,asj/e,_,seg/e,,,(,asj/e,中文/z,分词/,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,asj/e,_,seg/e,更快/d,,,更/d,准/a,,,更/d,自由/a,!

JoiUs

想了很久,不管有没有人帮忙吧。我写上来,如果你有兴趣,有热情可以联系我。

补充文档,增加调用实例和说明增加一些规则性Recogitio,举例身份证号码识别,目前未完成的有时间识别,IP地址识别,邮箱识别,网址识别,词性识别等...提供更加优化的CRF模型。替换asj的默认模型。补充测试用例,多地方测试不完全。如果你有兴趣可以帮忙啦!重构人名识别模型。增加机构名识别等模型。增加句法文法分析实现lstm的分词方式拾遗补漏...

功能介绍

Ansj中文分词 使用帮助 开发文档:3.x版本及之前,5.x版本及之后 摘要 这是一个基于n-Gram+CRF+HMM的中文分词的java实现。 分词速度达到每秒钟大约200万字左右(mac ...

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论