海关网站建设方案,wordpress 登录用户信息,大连网站制做公司,厦门建设公司网站MTMSA是基于TATE改进的#xff0c;大致框架都和他一样#xff0c;区别在于MTMSA没有提到tag#xff0c;并且在多头注意力的部分进行了改进#xff0c;也就是文中模态翻译模块#xff0c;此外还加了两个损失函数。在TATE中有一章是不同设置的影响#xff0c;里面有多个证明… MTMSA是基于TATE改进的大致框架都和他一样区别在于MTMSA没有提到tag并且在多头注意力的部分进行了改进也就是文中模态翻译模块此外还加了两个损失函数。在TATE中有一章是不同设置的影响里面有多个证明模型有效的实验他摘取了多分类的实验在TATE中用表格的形式给这篇用了折线图。 abstract
不确定缺失模态的多模态情感分析对情感分析提出了新的挑战。为了解决这个问题已经提出了考虑缺失模态的有效MSA模型。
然而现有研究仅采用拼接操作进行特征融合忽略了不同模态之间的深层相互作用。此外现有的研究未能充分利用文本情态而情态在情感分析中可以达到更高的准确性。为了解决上述问题我们提出了一种基于模态翻译的MTMSA模型MTMSA该模型对不确定缺失模态具有鲁棒性。首先对于缺失数据不确定的多模态数据文本、视觉和音频使用模态翻译模块将视觉和音频转换为文本模态然后将翻译后的视觉模态、翻译后的音频和编码后的文本融合为缺失联合特征missing joint features, mjf。接下来变压器编码器模块在预训练模型基于变压器的模态转换网络TMTN的监督下对mjf进行编码从而使变压器编码器模块产生近似于完整模态的不确定缺失模态的联合特征。编码后的mjf输入到变压器解码器模块中以学习不同模态之间的长期依赖关系。最后根据变压器编码器模块的输出进行情感分类。在两个流行的基准数据集CMU-MOSI和IEMOCAP上进行了大量实验实验结果表明MTMSA优于8个代表性基线模型。
intro
多年来情感分析一直是机器学习和自然语言处理领域的热门研究课题[1,2]。它旨在通过不同的方式例如文本、语音语调或面部表情来理解和解释人类的情感。最近自动和准确的情感分析在自然人机交互[1,3]、群体决策系统[4]、意见挖掘[5]和决策制定[6,7]中发挥了关键作用。随着YouTube、Twitter、微博等网络视频平台的普及越来越多的用户愿意通过视频来表达自己的情感和观点。为了有效地识别这些视频的情感取向多模态情感分析MSA被提出并受到越来越多的关注。例如给定一段独白视频MSA的目标是通过利用多种输入模式包括文本、听觉和视觉模式来检测所涉及的情感[8]。
与单模态数据相比多模态数据可以代表情绪的不同方面并提供互补的信息可以显著提高情绪分析的准确性[9,10]。在过去的几年中基于不同的技术提出了一些有效的MSA模型如递归神经网络[11]、变压器[12,13]和图卷积神经网络[14,15]。现有的MAS研究取得了丰富的成果促进了情感识别技术的快速发展。 然而大多数MSA模型假设所有模态文本、听觉和视觉总是可用的[16]。同时在实际应用中由于一些不可控因素常常会出现不确定的缺失模态[17]。例如如图1所示当关闭或遮挡摄像头时会丢失一些视觉信息在用户沉默的情况下无法获得某些语音内容或者是由于设备错误导致语音和文本丢失。因此所有模式在许多现实世界的场景中总是可用的假设是不成立的因此大多数MSA模型在不确定缺失模态下失效解决不确定缺失模态下的MSA问题成为一个关键问题。
近年来针对上述问题针对模式缺失的MSA研究提出了几种有效的学习方法大致可分为生成学习方法和联合学习方法两大类。一方面生成方法旨在生成与观察到的分布相匹配的新数据。例如Tran等人[18]提出了一种级联残差自编码器CRA通过叠加残差自编码器来模拟不同模态之间的相关性然后使用它来估算缺失数据。Cai等人[19]设计了一个三维编码器-解码器网络来捕捉不同模态之间的关系并利用辅助对抗性损失使可用模态产生缺失模态。
另一方面联合学习方法试图从观察到的表征中学习潜在表征。如Zhao等[20]提出了一种统一的模型——缺失情态想象网络Missing Modality Imagination Network MMIN。MMIN学习鲁棒联合多模态表示在给定可用模态的情况下可以预测任意缺失模态的表示。
Zeng等[21]提出了一种标签辅助变压器编码器Tag-Assisted Transformer Encoder TATE网络来解决不确定缺失模态的问题。虽然对于缺少模态的MSA已经提出了一些出色的方法但它们都存在一些不足可以总结如下
•现有的作品只是采用拼接操作来实现特征融合无法考虑不同模态特征之间的深度交互。
•现有的作品没有充分利用文本情态在三种情态中文本情态的情感分析准确率总是最好的。
•在处理不确定的缺失模态时现有作品考虑所有缺失模态的情况然后分别处理每种情况这大大增加了MSA的复杂性。
针对上述问题本研究提出了一种不确定缺失模态下的语义翻译网络MTMSA。
首先对于具有不确定缺失模态的多模态数据文本、视觉和听觉使用模态翻译模块将视觉和听觉模态翻译成文本模态而文本模态由转换编码器编码。
翻译后的视觉形态、翻译后的音频和编码后的文本被融合到缺失的联合特征mjf中。
接下来变压器编码器模块在预训练模型的监督下对mjf进行编码基于变压器的模态转换网络TMTN使用完整模态TMTN进行训练从而使变压器编码器模块能够产生近似于完整模态的不确定缺失模态的联合特征。
同时将编码后的mjf输入到变压器解码器模块中用于指导变压器编码器模块学习不同模态之间的长期依赖关系。
最后根据变压器编码器模块的输出进行情感分类。本研究的主要贡献如下
•为了捕捉不同模态之间的深度交互并利用文本模态我们提出用一个模态翻译模块将视觉模态和听觉模态翻译成文本模态不仅可以通过深度交互提高视觉模态和听觉模态的质量还可以通过模态翻译来填补缺失的模态。
•为了处理MSA中的不确定缺失模态我们应用预训练模型来监督变压器编码器模块以生成接近完整模态的不确定缺失模态的联合特征。这种方法消除了模型确定缺少哪个模态/模态的需要并且可以降低问题解决的复杂性。
•基于两个流行的基准数据集CMU-MOSI和IEMOCAP我们进行了大量的实验来验证我们提出的模型MTMSA的性能实验结果表明MTMSA优于8个基线模型。
本文的其余部分组织如下第2节回顾了相关工作。第3节描述了提出的模型。
第4节给出了实验评价和结果。最后第五部分总结了本研究的结论并对未来的研究方向进行了展望
related work
multimodal sentiment analysis
本研究涉及多模态情感分析和缺失模态的多模态情感分析。在接下来的章节中我们将介绍这两个主题的相关工作。
多模态情感分析可以通过挖掘和整合多模态数据中的情感信息来提高情感分析的性能[2]。早期的多模态情感分析通常是通过特征分类实现的。Arunkumar等[22]提出了一种基于粒子群优化SVM- pso的支持向量机来推断意见挖掘输出并验证了该方法优于其他分类器。随着深度神经网络的快速发展基于深度学习的多模态情感分析方法取得了许多显著的成果。Mahendhiran等[3]提出了一种针对MSA的CLSA CapsNet将概念级情感分析和自然语言概念提取相结合然后应用胶囊网络对其进行解释和分析。实验结果表明该方法可以达到较高的MSA精度。
通过对多模态情感数据的有效融合可以提高情感分析的准确性[23,24]。为了学习多模态数据的联合表示通常使用三种融合策略。(1)早期融合将各个模态连接在一起然后将混合数据输入到预测模型中。Sun等[16]提出了一种门控的模态间注意机制以自适应的方式进行模态交互过滤多模态的不一致性。(2)后期融合Late Fusion为每个模态建立单独的模型结合模型的决策得到联合特征。Zheng等[25]分别为每种模态设计了特征提取方案和匹配模型结构并采用后期融合方法融合所有特征。(3)混合融合将早期融合和晚期融合相结合融合特征。Mai等[26]提出了一种用于混合对比学习的HyCon模型三模态表示法。该模型利用了模态内/多模态对比学习和半对比学习来全面探索跨模态的相互作用减少模态差异。
受机器翻译的启发一些研究将编码器-解码器结构应用于MSA并提出了一些基于情态翻译的有效MSA方法。Mai等人[27]提出了一种对抗性编码器-解码器框架将源模态的分布转换为目标模态的分布。Yang[8]提出了一种多模态翻译框架通过将视觉和音频特征转换成BERT提取的文本特征提高了视觉和音频特征的质量。Wang等[28]提出了一种基于变压器的端到端翻译网络该网络利用变压器进行模态之间的转换并利用前向和后向翻译捕获多模态特征之间的相关性。然而上述MSA模型是在所有模态总是可用的假设下提出的当某些模态缺失时这些模型将失效。
MSA with missing modalities
目前在多模态机器学习和MSA中已经开展了一些考虑模态缺失的研究并取得了一些精彩的成果可以分为两大类生成方法[29-33]和联合学习方法[12,17,34 - 38]。
生成方法通过分析现有数据生成与现有数据分布相似的新数据。Kingma等人[29]设计了一种变分自编码器VAE用于使用祖先抽样进行有效的近似后验推理。尚等
[30]提出了一种通过生成对抗网络Generative Adversarial Network GAN识别不同视图之间映射关系的视图imputation方法并采用多模态去噪自编码器从GAN的输出中重构缺失视图。Zhou等[31]提出了一种基于端到端特征增强生成和多源关联的深度神经网络。特征增强生成器利用可用模式生成表示缺失模式的3D特征增强图像。此外Zhang等人[32]提出了一种跨部分多视图网络该网络通过学习潜在的多视图表示和引入对抗策略来估算缺失视图。
联合学习方法利用不同模态之间的相互作用来学习联合表征[34]。Han等[35]提出了一种隐式融合辅助模态多模态信息的联合训练方法有效提高了多模态情感识别性能。Zhang等[12]提出了一种整合一致性和差异网络来解决模态缺失问题该网络通过跨模态转换器将其他模态映射到目标模态以解决模态缺失问题。Luo等[17]提出了一种多模态重构对齐网络来解决缺失模态问题该网络通过引入多模态嵌入和缺失索引嵌入来指导缺失模态特征的重构。Pham等[36]提出了一种通过源和目标模态之间的循环变换来学习鲁棒联合表示的方法。最近Yuan等人[37]利用基于变压器的提取器提取模态内和模态间的关系并使用该提取器监督缺失模态的重建。Wei等人[38]提出了一种可分离的多模态学习方法通过捕获模态之间的互补信息来解决模态缺失问题。以上相关工作总结如表1所示。
上述研究虽然取得了很好的成果但忽略了质量差的模态对模型性能的负面影响。此外现有模型需要考虑在不同情况下哪些模态缺失这增加了模型的复杂性。
methodology
在本节中我们首先定义了研究问题概述了我们提出的模型最后详细描述了我们提出的模型的关键模块。
问题定义
假设情感分析的多模态数据包含三个模态用表示缺失模态M属于vat例如当视觉模态缺失多模态数据表示为这个问题可以被定义为基于不确定缺失数据用户情绪识别的准确性方便起见在这一节中我们用去表示不确定缺失的多模态数据。
模型概述 为了解决模态缺失不确定的MSA问题我们提出了一种基于模态翻译的MSA模型MTMSA其结构如图2所示。MTMSA的工作流程如下
(1)将多模态数据{}输入到预训练好的TMTN模型中{}被预训练好的TMTN编码。同时(2)将多模态数据{}输入TMTN模型。在TMTN中使用转换编码器对文本模态进行编码然后将视觉文本和编码后的文本输入到模态翻译模块中将视觉模态翻译成文本模态同时将音频和编码后的文本输入到另一个情态翻译模块中将音频翻译成文本。接下来翻译的视觉、翻译的听觉和编码的文本模式被融合到缺失的联合特征MJFs中。然后将MJFs输入到变压器编码器模块中由预训练的TMTN进行监督使不确定缺失模态的MJFs逼近完整模态的MJFs。编码后的MJFs输入到变压器解码器模块中以学习不同模态之间的长期依赖关系。最后根据变压器编码器模块的输出进行情感分类。在接下来的章节中我们将介绍变压器然后详细描述TMTN的关键模块。
transformer 由于多头注意机制同时具有多个注意头它可以捕获来自不同子空间的信息。因此为了学习多种语义在多种方式下的表达我们使用多头注意机制来学习在每个情态的不同语义空间中提取信息。多头注意机制由式(2)给出如下 利用Eq.(3)计算-th head 模态翻译模块
已有研究表明基于文本模态的MSA分析结果最好。也就是说基于文本的情感分析的准确率约为70% - 80%而基于视频或音频的情感分析的准确率约为60% - 70%[13]。
受上述结果的启发我们提出使用情态翻译模块将视觉和听觉模态翻译为文本情态使视觉和听觉模态近似于文本情态从而提高多模态特征的质量提高多模态情感分析的效果。 Q从框图上来看是视觉和音频信息加强了文本表达为什么论文要说成使视觉和音频模态与文本模态更接近呢 AEv确实是从视觉模态数据中提取的使用的是 Transformer Encoder 对视觉模态进行编码并没有和文本模态直接进行交互。但在“Modality Translation Module”中通过后续的 Transformer Decoder将视觉和音频特征映射到文本特征的空间。在这一步中文本特征Et会被用作Transformer Decoder 的查询视觉和音频模态的特征作为键和值进行解码产生的Dvt和Dat是与文本模态更接近的表征。换句话说虽然最初的Ev是独立提取的但是在后续的翻译模块中视觉和音频模态的特征会被调整目标是使他们更类似于文本特征。 此外该模态翻译模块可以在视觉或/和听觉模态缺失时填补视觉和听觉模态。模态翻译模块的框架如图3所示模态翻译模块的计算过程如下
首先我们将每个模态的序列输入到一个全连通层中进行维度变换每个模态变换成 在本文的其余部分我们分别使用⋅和⋅来表示序列长度和特征维数。然后使用转换编码器提取每个模态的上下文特征。模态表示的更新过程可以按照式来表述。(4) -(6)条款如下 接下来我们为每个模态的提取特征添加残差连接并应用layernorm层进行归一化。计算过程如式所示。(7) -(9)条款如下 然后将归一化后的单峰特征输入到位置前馈子层进行线性变换从而完成三种单峰数据类型的编码。这个过程如等式所示。10至12条款如下 在获得视觉模态和文本模态的编码后变压器编码器在变压器解码器的监督下使编码模块生成的视觉模态或听觉模态接近文本模态即引导编码器将视觉模态或听觉模态的特征转换为文本模态的特征。
具体来说在将视觉或听觉模态翻译成文本模态时使用视觉模态或听觉模态的编码和文本模态的编码作为解码器的输入。然后将编码后的文本模态作为多头注意机制的查询将编码后的视觉模态特征或编码后的听觉模态特征解码为多头注意机制的关键和价值 与编码器类似我们在多头注意力计算中添加了残差连接和层范数层并注入了位置前馈子层作为解码器层。因此可以使用eq计算更新后的模态表示。15 -(18)条款如下 共空间投影
非常耳熟了TATE也有共空间投影transformer的encoderdecoder和TATE是一样的设计
经编码器模块处理后对三种模态特征进行线性变换得到各模态的自相关共空间[21]并将其拼接到mjf中。
该方法的优点是首先由两个模态联合训练一个权矩阵并在权值中保留了两个模态之间的交互信息其次当缺失的模态特征接近完整的模态特征时只需要关注整体的关节特征。因此无论缺少哪个模态它都可以近似完整模态的特征。公共空间投影的计算过程可以用式来描述。19 -(21)条款如下 然后我们将所有的公共向量连接起来得到共同的联合表示。由于将不确定缺失模态串接得到的是故其为文中缺失的联合特征其计算过程可由式22描述如下 transformer encoderdecoder
为了有效地模拟不同模式之间信息的长期依赖关系我们使用转换器编码器-解码器来捕获联合特征之间的依赖信息。将缺失的关节特征作为编码器的输入编码后得到输出的计算过程可以用方程来描述。23 -(25)条款如下 同样考虑编码器的输出E作为解码器的输入解码后的输出的表示可以用方程来计算。26至28条款如下 最后计算联合特征编码器输出的E与解码器输出的之间的解码器损耗。下一节将详细描述解码器损耗。
training objective
对于所提出的MTMSA模型其训练目标是使模型的整体损失最小化。 对于损失函数通常使用Kullback-Leibler散度来计算两个概率之间的差。然而散度不是对称的因此我们采用Jensen-Shannon散度来计算损失。散度和散度见式。30和31分别如下 (1)pre-trained loss:
和TATE的forward loss一样
用于将mjf近似为完整的关节特征。因此我们计算预训练模型E和变压器编码器E的输出之间的JS散度。预训练模型的结构为TMTN模型如图2所示预训练模型采用完整模态进行训练。将预训练损失定义为Eq.(32)如下 (2)Decoder loss:
和TATE的backword loss一样
它是用来监督共同关节重建。因此我们计算了变压器解码器输出和更新的共同联合表示之间的JS散度损失。解码器损耗由式33定义如下 (3)Modality translation loss:
由于翻译方法是将视觉和听觉模态翻译成文本模态。因此我们计算了模态翻译解码器输出和模态翻译编码器表示之间的JS散度损失。模态平移损失函数定义如式34和式35 (4):Classification loss:
对于最后的分类模块我们将输入到一个带有softmax激活函数的全连接网络中计算预测分数如式36所示 其中和分别是权重和偏差。在这里我们采用标准的交叉熵损失函数进行分类其定义如式37所示 整个模型的伪代码TATE也有 experiments
为了验证所提出模型的性能我们使用两个流行的数据集进行了广泛的实验卡内基梅隆大学多模态意见情绪和强度CMU-MOSI[40]和交互式情绪二元动作捕捉IEMOCAP[41]数据集。在接下来的章节中我们首先描述了两个公共基准数据集和数据预处理然后介绍了实验设置和8个基线模型最后给出了实验结果
基准数据集
据我们所知大多数MSA研究基于公共数据集CMU-MOSI和IEMOCAP验证模型性能。因此我们采用这两个数据集作为基准数据集。两个数据集的详细内容和特征提取过程如下
CMU-MOSI: CMU-MOSI数据集包含从93个YouTube影评视频中提取的2199个独白短视频片段。数据集中的每个样本都使用−3到3的情感评分进行注释。
IEMOCAP: IEMOCAP数据集是一个广泛使用的多模态情感数据集。它是通过记录演员之间的情感对话和互动来收集的。该数据集由五个会话组成每个会话包含大约30个视频每个视频包含至少24个话语。IEMOCAP中的注释标签有中性、沮丧、愤怒、悲伤、快乐、兴奋、惊讶、恐惧、失望等。
在前人研究的基础上我们分别在CMU-MOSI数据集和IEMOCAP数据集上进行了3次分类实验。
因此在我们的实验中对于CMU-MOSI数据集我们将情绪得分转换为消极中性和积极的标签即消极[- 3,0中性[0]和积极0,3]。
对于emocap数据集我们将情绪得分转换为消极和积极的标签即消极[沮丧愤怒悲伤恐惧失望]积极[快乐兴奋]。
数据预处理
两个数据集的特征提取过程如下[21]。
首先CMU-MOSI和IEMOCAP数据集中的视觉特征主要由人脸组成。面部特征由OpenFace2.0工具包提取[42]包括面部、头部和眼球运动。视觉表示的维度是709。其次对于文本表示使用预训练的双向编码器表示BERT方法[43]包括12层768隐藏12头来提取文本特征。文本特征的维数为768。第三使用Librosa提取音频特征[44]。每个音频样本混合成单声道信号和重采样在16000赫兹。此外每帧被分割成512个样本并选择过零率、Mel-Frequency倒谱系数MFCCs和常q变换CQT特征来表示音频片段。最后将这三个特征连接起来产生33维音频特征。在我们的实验中我们使用了[21]提供的预处理数据进行实验。
实验设置
我们的实验平台是一台个人电脑配置如下操作系统Windows 10 CPU: Intel(R) Core(TM) i910900K CPU, GPU: Nvidia 3090, RAM: 96G。我们使用Python 3.6在TensorFlow 1.14.0上实现了所提出的模型。对于我们提出的模型MTMSA我们将学习率设置为0.001批量大小设置为32隐藏大小设置为300。我们采用Adam优化器[45]来最小化总损失。epoch号设置为20减重设置为0.1。我们提出的模型的参数设置如表2所示。 在我们的实验中我们采用精度Acc指标和宏观f1分数M-F1作为评价指标将我们提出的模型与基线模型进行性能比较。Acc和M-F1在式中定义。第38条和第39条的规定如下 baseline
为了验证MTMSA的性能我们选择了8个最先进的模型作为基线模型分别介绍如下
•AE[46]该模型使神经网络中的目制值等于输入值并使用反向传播算法学习数据的内在结构。
•CRA[18]这是一个基于级联残差自编码器的缺失模态重构框架该框架采用残差连接机制来近似输入数据之间的差异。
•MCTN[36]这是一种通过源模态和目标模态之间的循环变换来学习鲁棒联合表示的方法。
•TransM[28]这是一种基于端到端转换的多模态融合方法利用变压器方法在源模态和目标模态之间进行循环转换以提高翻译性能。
•MMIN[20]这是一个统一的多模态情绪识别模型它使用级联残差自编码器和循环一致性学习方法来预测可用模态的缺失模式。
•ICDN[12]该模型集成了一致性和差异网络来解决模态缺失问题。此外它通过跨模态转换器将其他模态映射到目标模态以解决缺失的模态。
•MRAN[17]这是一个多模态重建和对齐网络通过引入多模态嵌入和缺失索引嵌入来指导缺失模态特征的重建从而解决缺失模态问题。
•TATE[21]这是一个采用标签编码技术覆盖所有不确定缺失情况并监督联合表示学习的TATE网络。
性能比较 在这个实验中我们通过在CMU-MOSI数据集上进行三次分类和在IEMOCAP数据集上进行两次分类来测试我们提出的模型MTMSA的性能。我们的实验由两部分组成第一部分考虑单个缺失模态的情况第二部分考虑多个缺失模态的情况。基线模型的性能来自先前的研究[21]。实验结果如表3、表4所示最好的结果被持有。MTMSA、ICDN和MRAN模型的实验结果是在我们的实验平台上使用训练好的模型得到的其他6个模型的实验结果选自[21]。
单缺失模态实验
本实验中缺失模态率设为0 ~ 0.5。实验结果见表3。从表3中可以看出对于CMU-MOSI数据集当缺失模态率设置为0.2、0.3、0.4和0.5时我们提出的模型MTMSA在两个评估指标ACC和M-F1上都优于其他基线模型。然而当缺失模态率为零时MTMSA的M-F1得分比MMIN模型低2.29%ACC值比TATE模型低0.01%。当缺失模态率为0.1时MTMSA模型的M-F1值比TATE模型低0.78%。此外对于IEMOCAP数据集当缺失模态率设置为0、0.1、0.2、0.3、0.4和0.5时MTMSA在两个评估指标ACC和M-F1上都优于其他基线模型。因此根据表3中的结果我们可以得出结论我们提出的模型的整体性能优于其他基线模型在CMU-MOSI和IEMOCAP数据集上的性能
缺失多模态实验
本实验中缺失模态率设为0 ~ 0.5。实验结果如表4所示。从表4中可以看出对于数据集CMUMOSI当缺失模态率设置为0.1、0.2、0.3和0.5时我们提出的模型MTMSA在两个评估指标ACC和M-F1上都优于其他基线模型。然而当缺失模态率为零时MTMSA的M-F1得分比模型MMIN低2.29%ACC值比TATE模型低0.01%。缺失率为0.4时MTMSA的ACC值比TATE模型的ACC值低0.52%。
当模态缺失率设置为0、0.1、0.2、0.3、0.4和0.5时MTMSA在IEMOCAP数据集上的评估指标ACC和M-F1方面都优于其他基线模型。
此外与其他基线模型相比我们提出的模型将IEMOCAP数据集的M-F1得分值从0.21%提高到5.21%ACC值从0.75%提高到4.05%。因此基于上述结果我们可以得出结论所提出的模型MTMSA在CMU-MOSI和IEMOCAP数据集上优于其他基线模型。
理论分析
从表3和表4中我们发现MCTN和TransM模型比AE和CRA表现更好因为MCTN和TransM模型中使用了循环翻译操作。与AE和CRA模型中的自编码器操作相比循环平移操作可以提取和整合不同模态的信息。通过将我们提出的模型MTMSA与MCTN和TransM进行比较我们可以发现MTMSA由于考虑了不同模式之间的质量差异而取得了更好的结果。
通过情态翻译操作将低质量的情态听觉和视觉转换为高质量的情态文本以提高情感分析的性能。
对比ICDN与其他模型可以发现当模态缺失率为0.4时CMU-MOSI和IEMOCAP数据集上ICDN的ACC和F1值急剧下降。这是因为ICDN通过模式之间的映射来解决缺失的模式然而当缺少的模态太多时有效地映射不同的模态就成为一个重大挑战。因此随着缺失率的增加ICDN的性能会显著下降。
此外当模态缺失率为0.5时CMU-MOSI和IEMOCAP数据集上MRAN的ACC和F1值急剧下降。这是因为MRAN模型的视觉和听觉特征被投射到文本特征空间上并且所有三种模式的特征都被学习到与其相应的情感词嵌入接近从而使视觉和听觉特征与文本特征一致。同时当模态缺失率较大时多式联运特征的投影受到限制。
当所有模型都可用时MTMSA仍与上述模型略有不同。然而当模态缺失时我们的模型通常优于MMIN和TATE模型。这是因为我们提出的模态翻译操作可以在不确定的情况下弥补缺失的模态。此外,相比上述两个模型我们的模型在预训练期间使用完整的关节模态来监督缺失的关节模态。
因此它不需要考虑缺失模式的具体情况它只需要将缺失的关节模态近似为完整的关节模态从而降低了模型的复杂性。
消融实验 为了验证MTMSA在不同模态上的性能以及MTMSA不同模块的有效性基于CMU-MOSI数据集进行了模态和模块烧蚀实验。在这里我们分别使用“T”、“A”和“V”来表示文本、音频和视频模式。这两个实验的实验设置和结果将在下面的段落中描述。
情态消融实验
本实验考虑以下三种情况A.只使用一种情态来分析情感。在这种情况下情感分析结果是通过使用变压器编码器直接从单个模态提取特征并随后进行情感分类来获得的。由于只使用了一种情态所以没有遗漏情态的情况。因此将这种情况下的缺失模态率设为0B.任意两种模态用于情感分析例如T V T A和V A。在这种情况下我们将缺失的模态比率设置为0,0.1,0.2,0.3,0.4和0.5。对于视频和音频的组合V A由于不涉及文本模态因此将视频和音频模态由变压器编码器编码然后输入到公共空间进行拼接而不进行模态转换操作C.三种模式T A V同时用于情绪分析。
在这个场景中缺失的模态比率被设置为0、0.1、0.2、0.3、0.4和0.5。
模态烧蚀实验结果如表5所示最好的结果被持有。从表5可以看出在情况A中文本模式的效果最好MTMSA的ACC值分别比视频和音频模式的MTMSA高21.35%和17.71%。这些实验结果验证了文本情态在多情态情感分析中的主导地位。在场景B中包含文本模态的双峰组合比不包含文本模态的双峰组合效果更好。
在双峰组合中没有文本模态的双峰组合的ACC值比没有视频或音频模态的双峰组合降低了20%。此外通过比较单模态和双峰态的实验结果我们发现基于两种模态的实验结果优于基于单一模态的实验结果。
在场景C中当同时使用所有三种模式时可以获得最佳结果。此外实验结果也验证了互补特征可以从多个模态中学习到。
模块消融实验
在本实验中通过从MTMSA中去除不同的模块来生成一些模型变体并通过测试模型变体的性能来验证MTMSA不同模块的有效性。生成模型变体如下(1)从MTMSA中移除模态翻译模块生成模型变体MTMSA- mt。(2)从MTMSA中移除预训练模块生成模型变体MTMSA- pretmtn。(3)去掉MTMSA的共空间投影模块得到模型变体MTMSA- csp。
模块烧蚀实验结果如表6所示。从表6可以看出当缺失率为0时与MTMSA模型相比MTMSA- mt模型在M-F1和ACC上分别下降了1.28%和1.04%。当缺失率为0.3时mtsa - mt在M-F1中的性能下降2.08%在ACC中的性能下降3.13%。以上实验结果表明MTMSA模型中的情态翻译模块是有效的。
对于MTMSA-CSP模型我们使用串联操作来替换公共空间投影模块。与MTMSA相比MTMSA- csp在M-F1中的性能下降约1.43%在ACC中的性能下降约2.08%。当缺失率为0.2时MTMSA-CSP的M-F1降低幅度最大为3.33%。当缺失率为0.4时MTMSA-CSP的ACC值下降幅度最大为5.21%。这些结果验证了共空间投影模块可以提高MTMSA的性能。
与MTMSA相比当缺失率为0时MTMSA- pretmtn在M-F1中减少2.41%在ACC中减少2.6%。当缺失率设置为0.5时mtsa - pretmtn模型的M-F1值降低4.5%。当缺失率为0.4时mtsa - pretmtn的ACC下降幅度最大为6.78%。这些结果证明了预训练模块对MTMSA的性能有显著的贡献。
多分类验证 为了验证MTMSA在基于IEMOCAP数据集的情绪多分类上的性能我们对四类快乐、愤怒、悲伤和中性和七类快乐、愤怒、悲伤、中性、沮丧、兴奋和惊讶进行了实验。IEMOCAP中多分类标签的分布如表7所示。 在本实验中我们选择TATE、ICDN和MRAN作为基线模型记录四种模型的平均结果。实验结果如图4和图5所示其中MTMSA、ICDN和MRAN的实验结果是在我们的实验平台上使用训练好的模型得到的而TATE的实验结果是在工作中得到的[21]。
在图4中纵轴表示评估指标MF1或ACC横轴表示模式缺失率。从图4中可以看出对于四类和七类分类随着模式缺失率的增加四种模型的性能继续下降。此外从图4中可以看出我们提出的模型MTMSA在四类和七类分类方面都是四种模型中表现最好的。此外ICDN实现了次优性能。图4的实验结果验证了MTMSA在多类情感分类中是有效的。
在图5中纵轴表示评价指标M-F1或ACC的平均值横轴表示四个模型。从图5(a)和(b)可以看出对于四类分类MTMSA的M-F1值比TATE高16.69%Acc值比TATE大10.61%。与ICDN模型相比MTMSA模型的M-F1和ACC值分别比ICDN模型大0.67%和2.40%。与MARN相比MTMSA对M-F1改善了15.67%对Acc改善了9.04%。
从图5(c)和(d)可以看出对于七类分类与TATE相比MTMSA的M-F1提高了1.39%Acc提高了3.38%。与ICDN相比MTMSA的M-F1改善了0.81%Acc增加了1.01%。与MRAN相比MTMSA的M-F1增加10.21%Acc改善10.00%。基于以上实验结果我们可以得出MTMSA在多类情感分类中具有更好的性能。
此外从图4(b)和(d)四类和七类场景来看当缺失率分别设置为0.3和0.4时ICDN的准确率也会急剧下降。这是因为过多的缺失模态会阻止模型有效地捕获模态之间的交互并利用它们来填充缺失的模态。同时可以看出在七类分类的情况下MRAN的准确率在缺失率不同的情况下都急剧下降除了缺失率为0.3正确率基本保持不变。这是因为当模态严重缺失时MRAN模型的多模态特征投影受到限制从而影响视觉和听觉特征在文本特征空间上的投影。
conclusion
在这项研究中我们提出了MTMSA模型来解决MSA不确定缺失模式的问题。由于使用了模态翻译技术将视觉模态和听觉模态转换成文本模态从而提高了视觉模态和听觉模态的质量从而使MTMSA能够通过模态之间的翻译来填补缺失模态的空白。此外MTMSA利用预训练模型来指导缺失模态与完整模态最相似的关节特征的生成从而解决了缺失模态问题。由于模态翻译技术和联合特征生成方法MTMSA不仅可以解决所有不确定的缺失情况而且不需要考虑哪些模态缺失。此外还提出了分类、预训练、编码器和模态翻译损失来监督学习过程。在两个常用的基准数据集CMU-MOSI和IEMOCAP上进行了实验和进一步分析实验结果验证了所提模型的有效性。
在未来的工作中我们将探索没有完整的模式来训练预训练模型的情况。因此我们未来的研究将更适合于实际和现实世界的应用。