新闻文本分类模型搭建

我要开发同款

廷翰2021年07月31日

328阅读

作品详情

项目描述：获取平台近30万篇新闻文章，这些文章类别如下：'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13，根据历史数据训练出文本分类模型，用于预测新上线新闻类别责任描述：⚫ 使用 nltk工具进行中文分句⚫ 使用stanfordcorenlp工具对句子进行分词和词性标注，并结合stopwords及停用词性表['m','x','uj','ul','mq','u','v','f']对每一个词进行过滤⚫ 使用Counter()及most_common()对所有新闻文章进行词频统计并排序，舍弃掉词频小于5的分词⚫ 基于CountVectorizer + RidgeClassifier进行文本分类，用f1_score预测得分为0.74⚫ 基于TfidfVectorizer + RidgeClassifier进行文本分类，用f1_score预测得分为0.87⚫ 将标签数字做特殊处理，即转为字符串并在前面加上__label__，并用np.random.shuffle将全部数据打乱顺序分为训练集和测试集⚫ 使用fasttext.train_supervised进行模型训练，并用predict预测出测试集的所属类别，用f1_score预测得分为0.90⚫ 使用torch + bert进行文本分类⚫ 综合以上几种模型的评估得分，torch + bert模型的泛化能力最好⚫ 技术栈 : python + pandas + nltk+ stanfordcorenlp+ CountVectorizer + RidgeClassifier+ TfidfVectorizer + fasttext+ torch + bert + BasicTokenizer

查看全文

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论

1月前来过

职业方向：算法工程师

项目报价：全职 · 720/日 · 15660/月

联系方式：立即查看

服务企业：7家

累计提交：0工时

分类

jQuery Tabs Web多媒体播放器 ErLang 其他jQuery插件 ORM/持久层框架开源汽车/车载系统 MathML开发包缓存服务器 HTTP服务器可视化HTML编辑器 NativeScript 插件开源图标 Pjax相关项目在线帮助和支持系统任务/项目管理

推荐作品

2020全国大学生数学建模竞赛

我担任队长，获得全国二等奖，该奖获得率低于1%。我们最终完成了一篇论文，论文内容为出租车司机选择去机场接客和直接返回市区接客的实际价值的数据分析。

2020美国大学生数学建模竞赛

我担任队长最终斩获Finalist奖项，该奖获奖率低于1.5%。本论文涉及内容是足球数据分析，分析团队中影响最终比赛结果的核心因素，以及如何更高概率获得胜利。

2021美国大学生数学建模竞赛

这是国际上最大的数学建模竞赛，我担任队长，最终获得M奖项，该奖的获奖率低于3%，在该竞赛中我完成了一片论文，论文内容涉及音乐领域影响力网络结构构件和因素分析。

涂布厚度检测系统

用于在线检测在薄膜基底上的OCA胶，ITO等化合物，纳米级金属或其他聚合物等涂层的厚度测量厚度从100纳米到1毫米,重复精度从1纳米到0.5微米（和厚度有关）可以同时测量三层以上的膜厚

扫描式玻璃颜色检测系统

面向单银，双银，三银及以上的Low E/浮法线透过率，颜色，膜厚在线测量系统. 检测成品的膜面反射率/颜色值，透射率颜色值，玻面多角度反射率/颜色值以对双银及以上的镀膜工艺进行精确控制，数据存储在SQLServer数据库中.方便查询.

我也要上传

重点城市程序员兼职推荐

北京程序员兼职上海程序员兼职深圳程序员兼职杭州程序员兼职广州程序员兼职成都程序员兼职南京程序员兼职武汉程序员兼职西安程序员兼职重庆程序员兼职郑州程序员兼职长沙程序员兼职苏州程序员兼职合肥程序员兼职厦门程序员兼职济南程序员兼职青岛程序员兼职天津程序员兼职大连程序员兼职福州程序员兼职石家庄程序员兼职沈阳程序员兼职太原程序员兼职无锡程序员兼职南昌程序员兼职哈尔滨程序员兼职南宁程序员兼职珠海程序员兼职宁波程序员兼职昆明程序员兼职东莞程序员兼职贵阳程序员兼职美国程序员兼职长春程序员兼职温州程序员兼职佛山程序员兼职常州程序员兼职呼和浩特程序员兼职兰州程序员兼职乌鲁木齐程序员兼职中山程序员兼职海口程序员兼职洛阳程序员兼职

更多

点击空白处退出提示

您好 👋

我们能提供什么帮助？

向我们发送消息

常见问题、使用帮助、人工咨询等

智能搜索手机访问

使用微信扫一扫