新闻文本分类模型搭建

我要开发同款
廷翰2021年07月31日
328阅读

作品详情

项目描述:获取平台近30万篇新闻文章,这些文章类别如下:'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13,根据历史数据训练出文本分类模型,用于预测新上线新闻类别责任描述:⚫ 使用 nltk工具进行中文分句⚫ 使用stanfordcorenlp工具对句子进行分词和词性标注,并结合stopwords及停用词性表['m','x','uj','ul','mq','u','v','f']对每一个词进行过滤⚫ 使用Counter()及most_common()对所有新闻文章进行词频统计并排序,舍弃掉词频小于5的分词⚫ 基于CountVectorizer + RidgeClassifier进行文本分类,用f1_score预测得分为0.74⚫ 基于TfidfVectorizer + RidgeClassifier进行文本分类,用f1_score预测得分为0.87⚫ 将标签数字做特殊处理,即转为字符串并在前面加上__label__,并用np.random.shuffle将全部数据打乱顺序分为训练集和测试集⚫ 使用fasttext.train_supervised进行模型训练,并用predict预测出测试集的所属类别,用f1_score预测得分为0.90⚫ 使用torch + bert进行文本分类⚫ 综合以上几种模型的评估得分,torch + bert模型的泛化能力最好⚫ 技 术 栈 : python + pandas + nltk+ stanfordcorenlp+ CountVectorizer + RidgeClassifier+ TfidfVectorizer + fasttext+ torch + bert + BasicTokenizer
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论