一. 项目功能模块:
1. 文本分析
(一)投诉内容中文分词
中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
分词是文本分析的基础,如在分相似工单的时候,就需要用到投诉内容相似度分析的算法,而文本相似度算法首先就需要分词的支持,将用户投诉文本分词后形成词袋模型,再通过类似TFIDF文本相似度算法来分析哪些热线投诉是相似工单,这样就可以辅助业务人员在处置工单的时候可以参考以往相似工单,有针对性的下发派遣。
(二)投诉内容关键词提取
如何准确、高效地对热线投诉的内容进行检索,是目前的研究热点。对于文本的分析,一般会先从关键词入手,热线投诉的关键词不但可以概括文章的主题,还能反映整篇文章所表达的主要内容与情感倾向。因此,高效、准确地获取关键词,对于文本分类、自动摘要和文本检索至关重要。
(三)投诉内容实体识别
实体识别是指将预先定义好的实体类型(人名,机构,地名等)识别出来,如识别文本中的人名、手机号、车牌号、身份证、地名、机构名、时间、其他专有名字。
实体识别主要用于热线工单的填报辅助分析,通过识别分析投诉工单,自动将工单中的投诉事件,投诉人名称,投诉地点,投诉关键信息摘