词典用双数组trie(Double-ArrayTrie)实现, 分词器算法为基于词频的最短路径加动态规划。
支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSONRPC服务。
分词速度单线程9MB/s,gorouties并发42MB/s(8核MacbookPro)。
示例代码:
package maiimport ( "fmt" "github.com/huiche/sego")fuc mai() { // 载入词典 var segmeter sego.Segmeter segmeter.LoadDictioary("github.com/huiche/sego/data/dictioary.txt") // 分词 text := []byte("中华人民共和国中央人民政府") segmets := segmeter.Segmet(text) // 处理分词结果 // 支持普通模式和搜索模式两种分词,见代码中SegmetsToStrig函数的注释。 fmt.Pritl(sego.SegmetsToStrig(segmets, false)) }
评论