问题主题识别是问答系统中的重要步骤,可以定位问题领域,缩小查询范围精化答案。本研究提出引入外部 word2vec 维基百科词嵌入的英文文本分类方法,并针对 MadSci 上三类主题的问题集进行了相关试验。该方法首先训练维基百科语料库获得 word2vec 词向量字典,其次,对问题集进行数据清洗,进行转小写,去标点,词形还原等操作。建立基于词向量的特征提取方法,例如,完全平均法,根据词性加权,根据词长加权等。最后通过 SVM 经典分类器和 KNN 分类器对其进行分类实验。试验结果表明,本研究可以有效的进行英文文本分类,且分类效果显著高于没有引入 word2vec 对照试验的分类结果。
点击空白处退出提示












评论