基于主题增强词嵌入的短文本分类方法

我要开发同款
qiyin43592023年12月26日
30阅读

作品详情

摘要:背景:变应性鼻炎是一种慢性疾病,在日常生活中有多种危险因素使人容易罹患变应性鼻炎,包括接触变应原和吸入刺激物。分析可能诱发变应性鼻炎的潜在危险因素,可为患者在日常生活中减少其发生提供参考。目前关于变应性鼻炎危险因素的研究多基于调查方法,可能针对特定人群和特定场所。因此,它们可能对患者的广泛危险因素提供有限的见解。目的:社交媒体平台的存在让用户可以分享经验和观点。本研究旨在构建基于社交媒体评论识别变应性鼻炎危险因素的智能方法(TopicS-ClusterREV)。方法:检索知乎"变应性鼻炎"主题下2012年5月至2022年5月的所有数据,获得9,628条帖子和33,747条评论。首先,我们半自动构建主题词列表,通过增加预测中心词主题的任务来训练主题增强的词向量表示(topic-enhanced word vector representation, TopicS),对Skip-gram模型进行改进。然后,我们对包含危险因素的手动注释文本项进行矢量化,并训练危险因素分类器。最后,我们将这些分类文本分组,以更好地理解识别出的危险因素。结果:我们的模型检查了30,372条清理后的评论,确定了5,221条包含风险因素的评论。我们以TextRNN和Transformer为基准,比较了主题信息增强前后的分类器性能。实验结果表明,我们的分类器优于其他分类模型,准确率达到96.10%,召回率达到96.30%。我们将包含危险因素的文本聚类为28个人工可观察的类别。结论:该方法可有效处理海量数据并提取危险因素。此外,危险因素的总结可以作为患者在日常生活中减少AR的参考。本文给出的实验数据也为用户报告的几种危险因素提供了潜在的致病机制。本研究结果可为AR管理方案和干预措施的制定提供指导。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论