现有的情感分析方法存在一些问题。传统的情感分析主要集中在长文本内容上,但却忽略了短文本表示的特征稀疏和信息缺失,难以从有限的词汇中学习有效的特征表示。另外,多模态融合过程中存在信息控制问题,现有方法只注重多源异构信息的融合,忽略了对原始模态长文本信息的选择和过滤。在多模态情感表达中,模态之间存在着共有的和各自特有的信息,因此需要模型能够捕捉完整的两类信息并过滤掉与任务无关的噪声信息,从而学习出紧凑高效的融合表示。最后,在产品评论场景下,存在单文本多图像融合问题。产品评论数据通常由一段文本和多幅图像组成,而这些图像无法传达完整的情感信息,只能起到辅助或增强文本情感的作用。然而,现有的图文像情感分析方法往往将文本和图像视为具有同等的重要性,这与产品评论场景的实际情况不符。另外,我们发现在实际的大量评论图片中,原生的图像描述质量往往不如想象的那么好,有时甚至是不存在的。因此,如何根据图像动态生成高质量的图像描述并运用到情感分类任务中是有待解决的问题。我们针对以上三点问题分别做了改进。首先,我们提出了一个知识扩充模块,通过融合图像描述信息和短文本信息,克服了短文本信息不足的问题。其次,针对产品评论场景中多模态融合过程中的信息控制问题,本文提出了视觉蒸馏模块,该模块首先以文本信息为主体,利用图像信息辅助定位长文本中情感相关的句子,对长文本信息进行知识提炼,正确建模特殊场景下的文本与图像交互关系,在实现有效跨模态融合的同时降低原始模态的噪声信息,提高原始模态信息的质量。第三,针对产品评论场景中的单文本多图像融合问题,本文提出了视觉注意力模块。该模块首先以文本信息为主体,利用图像信息辅助定位文本中与情感相关的单词。它对特殊场景下的图形交互关系进行建模,实现跨模态的联合级融合。最后,针对上述问题,我们提出了一种视觉蒸馏和注意力网络VisdaNet用于多模态情感分类。
点击空白处退出提示





















评论