TextGrocery是一个基于SVM算法的短文本分类工具,内置了结巴分词,让文本分类变得简单。
示例代码:
>>>fromtgroceryimportGrocery#新开张一个杂货铺,别忘了取名!>>>grocery=Grocery('sample')#训练文本可以用列表传入>>>trai_src=[('educatio','名师指导托福语法技巧:名词的复数形式'),('educatio','中国高考成绩海外认可是“狼来了”吗?'),('sports','图文:法网孟菲尔斯苦战进16强孟菲尔斯怒吼'),('sports','四川丹棱举行全国长距登山挑战赛近万人参与')]>>>grocery.trai(trai_src)#也可以用文件传入>>>grocery.trai('trai_ch.txt')#保存模型>>>grocery.save()#加载模型(名字和保存的一样)>>>ew_grocery=Grocery('sample')>>>ew_grocery.load()#预测>>>ew_grocery.predict('考生必读:新托福写作考试评分标准')educatio#测试>>>test_src=[('educatio','福建春季公务员考试报名18日截止2月6日考试'),('sports','意甲首轮补赛交战记录:米兰客场8战不败国米10年连胜'),]>>>ew_grocery.test(test_src)#准确率0.5#同样可以用文本传入>>>ew_grocery.test('test_ch.txt')#自定义分词器>>>custom_grocery=Grocery('custom',custom_tokeize=list)
评论