万网备案网站名称,网络营销方法选择,常州专业房产网站建设,云服务器小网站制作abstract
当前多模态情感分析面临的主要挑战包括#xff1a;1、模型如何在单一模态中提取情感信息#xff0c;并实现多模态信息的互补传输#xff1b;2、在单一模态中体现的情绪与多模态标签不一致的情况下#xff0c;如何输出相对稳定的预测#xff1b;3、当单模态信息不…
abstract
当前多模态情感分析面临的主要挑战包括1、模型如何在单一模态中提取情感信息并实现多模态信息的互补传输2、在单一模态中体现的情绪与多模态标签不一致的情况下如何输出相对稳定的预测3、当单模态信息不完整或特征提取性能不佳时该模型如何确保高精度。
传统方法没有考虑单峰上下文信息和多模态信息的相互作用。他们还忽略了不同模态的独立性和相关性当多模态情绪表征不对称时这些模态表现不佳。
为了解决这些问题本文首先提出了单峰特征提取网络UFEN以提取具有更强表示能力的单峰特征然后引入多任务融合网络MTFN来提高多模态之间的相关性和融合效果。模型中使用了多层特征提取、注意机制和Transformer来挖掘特征之间的潜在关系。在MOSI、MOSEI和SIMS数据集上的实验结果表明与最先进的基线相比该方法在多模态情感分析任务上取得了更好的性能。
intro
多模态互补性与异质性
由于每种模态都有其独特的特点融合多种模态可以充分利用信息的互补性和传递性。然而多模态信息也具有异质性。不同模态数据之间的语义并不完全一致如图1所示。简单的模态添加无法达到预期的效果。这对多模态情感分析的特征提取和融合网络提出了更高的要求。
模态内特征提取与模态间特征提取
MSA主要包括两个过程模态内特征提取和模态间信息交互。模态内特征提取是为了获得更高维的情感表示它侧重于单个模态中的空间或时间信息。模态内的特征是改善多种模态之间信息互补特征的基础。模态间信息交互侧重于信息的融合。它充分利用信息的传输和互补特性为情感分析任务提供更准确、更稳健的结果。这些融合方法根据融合方法分为各种类型包括数据融合、特征融合、决策融合等。结合上述两个过程该模型可以学习相应模态的特征以及不同模态之间的相互作用。常用的模态内特征提取方法包括LSTM和GRU等递归神经网络。这些方法可以有效地捕捉序列特征。然而它们无法平衡模态内和模态间相互作用之间的关系这导致RNN本身无法捕获模态间相互影响所期望的多尺度信息。
已有代表性工作以及其局限性
Zedeh等人提出的张量融合网络TFN使用LSTM提取模态内特征信息。引入三重笛卡尔积来构建张量融合层以模拟不同模态之间的动态融合尽管计算复杂度很高。
Wang等人结合GRU和Transformer来挖掘模态内相互作用以及将信息整合到编码特征中以提高模态之间的相关性。对于多式联运信息交互过程受注意力机制的启发许多模型使用基于注意力的策略来融合多式联运特征。
Tsai等人5提出了多模态变换器MulT它使用多头注意力机制来关注不同模态和时间序列的特征。该模型还可以对未对齐的数据产生稳定的预测。然而它使用许多融合特征进行情感分析但忽略了模态内特征这可能会导致某些模态信息的利用不足。
Sun等人6使用模态之间的情感表征作为上下文并与模态内特征相互作用。该方法更好地平衡了模态内和模态间信息交互之间的关系。
作者的研究动机以及贡献
尽管许多研究提出了多模态特征提取和融合的新方法但缺乏在模态不平衡和隐式表达条件下进行精确情感分析的研究这在现实世界场景中更为普遍。基于上述分析本文的主要研究动机及其旨在解决的问题如下
1许多模态内特征无法完全提取直接融合很容易忽略这些独特的信息。
2 模态间特征的互补性没有得到充分利用预测结果更有可能偏向于一种模态所表示的语义信息。
3 在复杂的语义环境中每种情态的情感倾向是不一致的模型很难平衡情态内和情态间的关系。
在本文中我们提出了一种单峰特征提取网络UFEN来捕获单模态中的上下文信息。它结合了多层信息融合和基于卷积过程的自关注机制以获得更重要和独特的模态内特征。它还减少了冗余信息对后续模态间特征融合的影响。在模态间信息交互过程中多头注意力模块可以帮助模型学习更多的互补信息和特征之间的高维表示。
基于此我们提出了一种多任务融合网络MTFN用于提取模态之间的潜在关系以及融合特征的整体情感表示。该网络引入了跨模态注意力模块、编码器和解码器层。为了缓解多种模态中情绪表示不一致的问题降低预测的准确性我们将多模态情绪分析设置为多任务学习。多个任务的特征表示共同影响模型每个任务的损失用于平衡模态内和模态间信息交互之间的关系。
本文的主要研究目标和贡献可以概括如下
•优化和提高单峰特征提取的质量和表示能力我们提出了一种UFEN来提取单峰语义表示。该网络基于多层信息融合结合了卷积层和自我关注模块。网络通过时间序列特征和不同尺度特征关注更具代表性的信息。
•在情感不对称或隐含表达的条件下保持准确的信息交互和结果预测我们提出了一种MTFN它将MSA视为一种多任务学习。该模型可以提取模态之间的互补特征同时减轻模态间情感表征不对称的影响
•该模型可以应用于各种情绪分析任务并表现出良好的泛化能力为了验证所提出方法的有效性我们在三个广泛使用的MSA基准数据集上进行了全面的实验包括CMU-OSI、CMU-MOSEI和CH-SIMS。实验结果表明我们的方法优于以前的方法。本文的其余部分结构如下“相关工作”部分介绍了近年来的相关工作。在“方法”部分我们定义了问题公式并介绍了本文提出的方法的细节。“实验”部分描述了实验数据集、评估指标、实验配置和基线模型。“结果”部分描述了实验结果分析、消融实验和可视化分析。最后我们在“结论”部分得出了我们的结论。
related work 分主题介绍每个主题都遵循了总体概述-主要问题或已有方法思路-具体代表性论文-局限点以及启示的写作套路。 多模态情感分析
多模态情感分析的重要性以及起源
早期的情感分析方法是单模态的主要侧重于文本模态。单纯的文本数据无法满足对更复杂情感分析的准确需求尤其在 HCI人机交互领域。因此多模态情感分析便应运而生。除了文本模态外多模态情感分析还包含语音与视觉信息这些信息可以用来更准确地预测隐式情感极性。
点名当前的研究热点表示学习与多模态融合与论文主题相近
关于多模态情感分析的研究主要聚焦在多模态表示学习以及多模态融合。
举例经典工作扼要陈述方法
Hazarika 等人的工作设计了两个不同的编码器分别将特征投影到‘模态不变子空间’和‘模态特定子空间’。Fang 等人提出了一种多模态相似度计算网络用来学习文本与图像在统一向量空间中的嵌入表示。Zhang 等人使用对抗网络来减少多模态情感分析中表达风格转移带来的影响并从不同模态获取联合表示。这种方法有助于实现不同域之间的情感信息迁移。Sun 等人提出了‘模态不变时序学习技术’以及‘模态间注意力’机制以获取模态内与模态间特征。
进一步细分多模态融合的策略分为早期融合和后期融合
对于多模态融合可以主要分为早期融合与后期融合。早期融合一般指在输入阶段就将不同模态的特征拼接起来而后期融合则在单独构建各自模态的独立模型后再将输出结果整合起来。
同样举例经典工作同类方法放在一起
Zadeh 等人通过外部生成的向量将多模态特征进行融合。Yang 等人引入了注意力机制以捕捉不同模态特征之间的表示关系从而实现特征融合。Zeng 等人使用图神经网络以同时获取独立特征与互补特征信息平衡模态之间的独立性与互补性。Li 等人则采用量子理论来建模模态内以及模态间的相互作用并在不同阶段使用叠加和纠缠操作来表达情感。Majumder 等人采取了分层方法来进行融合首先融合单模态然后再对所有模态做融合。
扩展到其他生理信号融合
此外基于生理信号如脑电图、心电图、皮肤电活动的情感分析研究也很流行。Kumar 等人结合 EEG脑电和语音信号来进行情感分析并在消费产品的多模态评分上取得了较好的结果。Katada 等人将心电信号与语言特征相结合通过多模态表示来提高多模态情感分析的效率。
深度学习方法
概括深度学习在情感计算领域重要地位
自深度学习兴起以来它在多方面主导了相关研究。情感计算这一领域也和其他计算研究领域一样从深度学习的进步中受益良多。
列举主要挑战以及对应研究
Daneshfar 等人探索了由不同文化与语言差异所导致的情绪不稳定问题并采用基于迁移学习的方法利用增强训练来实现对德语情感分析数据集的准确跨语言情感识别。Zhang 等人针对小规模标注语音数据的问题采用半监督学习的方式生成伪标签将跨模态知识源自图像模态整合到语音数据的训练过程中从而在情绪分析上取得了相对准确的结果。Li 等人针对实际应用中不确定模态缺失所造成的性能退化提出了一种分离式知识提取方法和蒸馏学习算法用以重构缺失的语义信息。该模型在 MOSI 数据集上取得了较好的效果。Meena 等人将 RNN 模型用于开发一套‘兴趣点POI推荐’系统通过集成情感分析模型和 POI 模型实现了旅行建议和群组推荐的多任务学习并取得了较为精确的情感判定。Paskaleva 等人则研究了可解释的情绪表示与情感生成提出了一种方法来融合未统一模态的标签然后采用扩散模型来生成具有丰富表达与情感属性的图像。
突出当前研究仍然存在的不足
尽管深度学习带来了巨大的性能提升但仍有许多方面需要进一步改进以满足用户不断增长的期望。首先是模型的可解释性越来越多的研究集中于这个问题为模型提供更完整的物理意义可以让改进更加容易。其次是模型的泛化能力。面对数据不足的情况更强的泛化能力能使模型在不同任务和领域上取得更佳的预测效果也更贴近人们对算法需求的期望。
多任务学习
介绍概念以及优势
多任务学习旨在利用多个相关任务中包含的有用信息来提升模型的泛化性能。与单任务模型相比多任务学习有三大优势(1) 通过共享信息模型性能可以得到提升(2) 模型具有更好的泛化能力(3) 只需要一个整体模型从而降低了模型的复杂度。正因为这些优势多任务学习已在 MSA多模态情感分析中得到了广泛应用。
拆分硬参数共享与软参数共享作者对MTL的常见实现方式做简单归纳
多任务网络通过参数共享的方法来实现模型的整体优化可以分为‘硬参数共享’和‘软参数共享’。硬参数共享是指多个任务共享一些网络隐藏层并在输出之前分别进行预测软参数共享则指为不同任务使用独立的模型同时在模型之间共享并优化某些参数。
列举多任务学习应用于情感分析或其他场景的典型研究
基于两个子任务间的相互依赖性Akhtar 等人提出了基于 GRU 的多模态注意力框架可同时预测语句情感与表情情绪。Foggia 等人采用多任务卷积神经网络来识别面部图像中的性别、年龄、种族和情绪等信息。同时他们使用加权损失函数去解决数据集不平衡和标签噪声等问题。Bai 等人提出了一种多任务提取框架通过反复迭代最小化单一损失函数来实现更好的梯度下降从而提升多任务学习的泛化性能。Singh 等人将多任务学习引入了投诉识别与情感分析当中通过深度神经网络与增强模型的结合借助通用场景知识获得了更高的准确率。Wang 等人提出了一个分层式多任务学习框架用于端到端的情感分析任务能同时检测文本中的方面词和情绪并利用中间层的监督机制来融合文本特征。Zhang 等人则提出了一个基于多头注意力的 Transformer 网络通过微调来获取上下文表示的高层信息。
总结与本文工作衔接
以往的方法大多使用固定策略去融合不同模态的特征未充分考虑维度和模态间的差异。本文提出的多模态情感分析模型基于 UFEN 和 MTFN可更好地挖掘模态内与模态间的相互关联从而提升情感分析性能。结合多层信息融合与多任务学习能够进一步提高模型的表现。
method
此部分不会逐句翻译
论文对三模态进行情感极性与强度的预测通过单模态特征提取网络UFEN与多任务融合网络MTFN两大组件来实现更充分的特征挖掘与跨模态信息交互。 任务定义
每个模态的数据为Xi维度是Ti×DiTi是时间长度/序列长度Di对应特征维度 通过这样的多头输出将模型设置成多任务学习场景兼顾单模态和多模态的训练损失
UFEN
在UFEN中为每个模态独立地学习充分的时序与局部特征并输出一个“融合后的单模态表征”Xfusion
UFEN是一种基于卷积神经网络和自关注的多层特征融合模型用于提取模态内信息。
它使用多层卷积神经网络获取不同维度的特征信息然后将获得的多尺度信息输入到自注意模块中调整不同特征的权重。加入Bi-GRU和多层特征融合使模型能够根据数据的上下文信息获得时态特征。通过融合这些信息有助于提高模型的表示能力和对全局和局部信息的综合感知能力。对于模型内特征提取UFEN可以通过改变卷积层数来满足不同尺度数据的特征提取需求以获得更细粒度的特征。UFEN具有良好的泛化性能可以适应不同任务的需要。
针对不同的模态我们采用不同的方法进行预处理然后输入到UFEN中。Bi-GRU用于获取数据的时间特征和上下文情感信息。为了使模型同时关注全局特征和局部特征我们引入卷积和自关注进行多层特征融合。 1. 预处理 这一步可能包括分词、梅尔频谱提取或视频帧抽取等使得不同模态的数据在形状和尺度上适合后续网络处理。
2. Bi-GRU
Bi-GRU层基于经典的GRU网络架构同时提取信息在正向和反向传播过程中的隐藏状态。使用双向GRU来捕获时序信息对于某模态在当前时刻的输入XtBi-GRU分别从前向和后向生成隐藏状态 其中Xt表示当前时间步长的输入信息。ht-1为前一个时间步长的GRU输出。GRU包括重置门、更新门和隐藏状态等参数的计算
将正向和反向的隐藏状态拼接得到ht在整段序列上应用双向GRU得到该模态的时序表示 3. 多层一维卷积
在获得时间序列信息后该模型着重于多维信息的提取和融合为提取不同尺度下的特征在Bi-GRU输出上叠加若干1D卷积层。 其中layer表示一维卷积层的数量K是卷积层的核大小F是卷积层中滤波器的数量。
对于layer∈{1,2,3....l}F∈{F1F2...Fi}和Xlayeri∈{Xi1Xi2....Xil}代表不同卷积层的输出。
不同层可采用不同卷积核大小K和通道数F从而学习到局部、全局等多种细粒度的信息。
4. 自注意力
为了减少冗余信息和整合多层次特征我们将卷积与注意权值相结合。注意机制用于 突出单峰特征提取过程中最相关的特征允许模型同时关注局部和全局上下文信息。 它可以被描述为: QKV来自同一模态时被视作self-attention然后为了让注意力后的特征对齐后续网络的尺寸需求引入上采样 5. 多层融合输出单模态预测
将不同卷积层的输出累加得到最终的单模态融合特征 接着增加一层线性softmax用于单模态情感分类 以上就是UFEN的全部过程既输出了单模态特征Xfusion又提供了单模态预测Yi供后续多任务学习使用。
MTFN
对于情感分析任务中的异构数据既存在能够表示某一模态特定信息的低层次特征也存在具 有多模态全局语义信息的高维特征。模型很难在模态内特征提取和模态间信息融合之间取得平 衡。在这种情况下使用多任务学习方法给予主导模态更高的权重可以提高情感分析结果的 稳定性。为了提高多模态融合的有效性本文设计了一个MTFN模型通过探索多任务学习和 模态间的信息交互来提取模态间特征。MTFN主要由两部分组成:(1)跨模态头部注意(“跨模态 注意”)用于融合不同的模态特征;(2)编码器-解码器层(“编码器-解码器层”)用于增强多任 务学习的特征提取和信息表示;(3)用于对抗数据不平衡和提高泛化性能的多任务学习(“多任务 学习”)。
1. 跨模态注意力 我们采用跨模态多头注意来增强模态之间的信息交互。此外融合全局特征和局部特征获得 更多表征。对于模态i和j我们将模态i定义为Query并计算i和j之间的相互关系从i到j的跨 模态关注可以表示为i→j。
线性投影 scaled Dot-Product 其中d为缩放因子 多头注意力输出 如此便能实现模态间的特征交互例如让文本关注到音频或视频中与其相关的时刻。
2.encoder-decoder网络
在模态内和模态间特征提取之后模型可以获得多模态融合特征。为了提高模型从多模态数据中提取情感特征的准确性重构一个编码器-解码器层。 通过编码器网络获得融合模态的高维特征然后利用解码器网络对特征进行重构。我们将编码器-解码器网络预测的标签和基于融合特征预测的标签合并到多任务学习中可以提高模型的泛化性能。 编解码器网络包含三个子网络层包括多头注意机制、层归一化和前馈网络。其中解码器中多头注意层的输入增加了编码器的输出。 首先将不同模态之间的跨模态注意力作为编码器-解码器的输入进行连接。表示为 即不同模态间的Cross-Attention结果进行拼接形成待编码的全局信息
对于给定输入编码器和解码器的第一个子层是多头注意力和层归一化。层归一化可以总结为 解码器和编码器的输出计算过程为 其中FF()表示前馈网络。此外我们在编码器-解码器的输入和输出信号上增加了线性层 用于后续的多任务学习。在解码器之后添加线性层的目的是为了评估重构的特征结果提 高网络的泛化性能。将重构情感信息的预测标签引入到多任务学习中可以优化模型参数。 这种方法还可以防止模型由于训练不平衡或数据情感表示不均匀而将高维信息预测为固定 标签。这两个线性层可以表示为: 3. 多任务学习
视频、音频和文本信息与人类情感表示高度相关。常见的情感分析方法包括对某一类信息的单模态识别和对融合特征的多模态识别。这些方法在结果准确性和细粒度情感特征提取方面存在局限性。
只关注单个任务可能会忽略一些具有潜在信息的相关任务来提高模型性能。因此将单模态和融合模态预测作为子任务来考虑。通过共享表征可以更好地利用多模态情感表征的互补特性。模型的泛化性能也将得到提高。同时多任务学习的使用意味着只需要一个模型就可以处理多个模态的独立优化和联合优化。与多模型融合相比多任务学习可以降低模型的计算复杂度。
将单模态子任务、多模态融合特征子任务和多模态特征重建子任务结合起来总损失示为: 论文用的是 均方误差MSE计算差异 其中yn是真实值y^n是模型预测值N是样本数
4. 算法流程 experiment
数据集
CH-SIMS: CH-SIMS数据集包含2281个经过精心编辑的中文视频片段来自60个影视视频。这 些视频片段具有丰富的人物背景和广泛的年龄范围。视频语音部分为普通话短片长度不少于1 秒不超过10秒。每个视频片段除了说话人的脸外没有其他面孔出现。数据集的注释将信 息与其他不相关的模态隔离开来。标注顺序为文本第一音频第二无声视频第三多模态最 后。标注任务包括2类(Positive, Negative)、3类(Positive, Negative, Neutral)和5类(Negative弱 Negative, Neutral弱Positive, Positive)。该数据集具有准确的多模态和独立的单模态注释可用 于支持研究人员进行多模态或单模态情感分析。 MOSI:多模态情感强度语料库(MOSI)数据集旨在突出三个特征:观点信息的多样性情感强度的重要性以及模态之间的互补性。作者通过在线分享网站收集了2199个视频片段长度从2到5分钟不等该数据集包含视频、语音和文本数据。每个视频片段都用−3(强负)到3(强正)的强度标签进行标记。 MOSEI:多模态意见情绪和情感强度(MOSEI)数据集旨在提高训练样本的多样性当前数据集的主题和注释的多样性。作者通过在线视频分享网站收集了23,453个带注释的视频片段。这些视频片段来自1000个不同的演讲者和250个主题。每个视频片段都包含与音频到音素级别对齐的手动转录。作者还使用了多种方法对数据进行注释包括Ekman情绪的[−3,3]李克特量表:[−3高度负面−2负面−1弱负面0中性1弱正面2正面3高度正面]和[0无证据1弱2中3高]量表。
SIMS、MOSI和MOSEI数据集的详细统计如表1所示。 baseline和实验指标
EF-LSTM:早期融合LSTM (EF-LSTM)利用双向长短期记忆(Bi-LSTM)深度神经网络的特征级融合和序列学习。
LF-DNN:后期融合深度神经网络(LF-DNN)引入三种模型结构对多模态数据进行编码然后结合PCA进行早期特征融合和后期决策融合。
TFN:张量融合网络(TFN)引入了一种端到端融合的情感分析方法。张量融合层使用来自模态嵌入的3倍笛卡尔积明确地对单峰、双峰和三峰相互作用进行建模。
LMF:低阶多模态融合(LMF)利用低阶因子进行多模态表示使多模态特征融合更加高效。
MulT:多模态变压器(MulT)利用双向跨模态注意机制来关注不同时间步长多模态数据之间的相互作用。
MISA:模态不变和特定表征(MISA)将每个模态转换为两个不同的子空间通过模态不变子空间学习共性并减少模态间隙然后通过模态特定子空间捕获私有特征。
Self-MM:自监督多任务多模态(Self-MM)情感分析网络设计了一个基于自监督学习策略的标签生成模块以获取独立的单模态监督。
MFN:记忆融合网络(Memory Fusion Network, MFN)提出了一种Delta-Memory Attention Network (DMAN)通过多视图门控记忆进行总结识别跨视图交互。
Graph-MFN:该模型引入了基于MFN网络的动态融合图(DFG)模块并进行融合分析。
MMIM51:多模态互信息最大化(MMIM)通过增加单模态表示、混合结果和低级单模态表示之间的互信息来减少与任务相关的信息损失。
本文采用分类和回归两种评价指标对模型进行评价。在MOSI和MOSEI方面根据前面的works我们的评价指标包括二元精度(Acc-2)、七级精度(Acc-7)、f1评分、平均绝对误差(MAE)和Pearson相关系数(Corr)。值得注意的是Acc-2有负/非负和负/正两种不同的表示方法。因此我们的结果给出了两种表示并使用分割标记-/-来区分它们其中左边的分数为负/非负右边的分数为负/正。在SIMS上根据前人的研究我们的评价指标包括二元精度(Acc-2)、三重精度(Acc-3)、五级精度(Acc-5)、f1评分、MAE和Corr。
Acc-x用于评估模型是否可以将数据划分成相应的情感区间表示为 N表示参与模型评价的样本数量I()为指标函数。当模型预测值yˆn在ground truth的情感区间内时输出1否则输出0。X表示情感分类的数量。随着x的增加情感区间I()越多情感分析就越详细。Acc-x也可以通过混淆矩阵来计算表示为: f1评分用于评价模型在数据不平衡条件下的性能。它结合了精度Pc和召回率Rc可以表示为: MAE用于衡量模型回归的准确性表示为: yn和y^n分别表示数据的真实标签和模型的预测标签。对于除MAE外的所有指标值越高表示性能越好。
对比实验 对于CMU-MOSI数据集我们可以从表3中看到结果。基于自监督学习的自mm和基于模态特征投影的MISA优于其他基线方法。我们基于多层特征融合和多任务学习的方法在多个评价指标上优于MISA和Self-MM。具体来说我们的方法在Acc2上优于Self-mm 2.7%/2.8%优于MISA 3.4%/3.2%。该方法在双相情感分析的f1评分、MAE和相关性方面分别比Self-mm好2.7%/2.8%、0.03和0.013。同时比MISA分别好3.5%/3.1%、0.055、0.031。对于Acc7该方法比Self-mm和MISA分别高1.8%和4.4%。 为了更好地评估模型在MOSI数据集上的性能我们将情感极性的二类和七类分类结果可视化。混淆矩阵如图6所示。对于两个极性的分类我们的方法保持了较高的分类精度。对于七种情绪极性的分类我们的方法在具有明显情绪极性的测试样本上表现更好。对于情绪极性较弱的样本尽管分类结果优于基线模型但仍然存在将其误分类为中性的风险。这种情况在弱负性样本中更 为明显。我们的结论是这可能是由于表达弱情绪的特征数量有限。当每个模态的情绪特征不一 致时模型更倾向于中性的预测结果。 对于CMU-MOSEI数据集我们可以从表4中看到结果。由于数据量和情绪信息的增加多极情绪分析的所有基线的性能都有所提高。基于互信息最大化的MMIM和基于模态特征投影的MISA方法优于其他基线方法。与MOSEI数据集上所有基线的实验结果相比我们的方法有不同程度的改进。具体来说我们的方法在Acc2上优于MMIM 2.7%/2.2%优于MISA 1.2%/0.5%。该方法在双相情感分析的f1评分、MAE和相关性方面分别比MMIM方法好2.6%/2.2%、0.064和0.02。同时比MISA分别好1.1%/0.5%、0.02、0.004。对于Acc7该方法比MMIM和MISA分别高2.6%和2.3%。我们的方法在复杂任务上有更好的表现。 对于CH-SIMS数据集我们的方法在大多数评估指标上都有所改进如表5所示。在Acc2上它比基于动态融合图的Graph-MFN和基于跨模态注意的MulT高1.91%。其F1-score分别比基于Graph-MFN和基于张量融合的TFN高0.87和0.61。该模型接近MAE上表现最好的LF-DNN差值0.004。在Correlation上它与Self-mm相差0.012。该模型对Acc3和Acc5都进行了改进最高的改进达到了16.35%和24.41%。最小的改进分别为0.37%和1.66%。
分析
从三个数据集的实验结果来看MFN在CMU-MSOI和MOSEI上表现不佳尤其是在Acc2、F1-score和Correlation上。原因可能是虽然MFN考虑了特征的模态内和模态间的相关性但仅使用LSTM可能无法完全提取数据中的情感信息。同时使用所有单模态信息进行特征融合也会导致信噪比的降低。EF-LSTM在CH-SIMS数据集上表现最差主要体现在Acc2、F1-Score和Corr三个方面。这可能是由于早期融合更多地用于粗粒度特征提取融合后的特征受到各模态噪声的强烈影响。这使得融合特征难以准确地表示模态之间的连接。为了更好地评估模型在SIMS数据集上的性能我们将情感极性的三级和五级分类结果可视化。混淆矩阵如图7所示。对于三个极性的分类我们的方法保持了较高的分类精度。对于五种情绪极性的分类结果与MOSI相似该模型有可能将其他情绪极性误分类为中性但其性能优于MOSI。 我们得出结论这可能是由于SIMS数据集具有更多的情感特征。为了评估我们的方法在多模态情感分析研究中的新颖性我们收集了其他研究领域的最新作品进行比较。结果如表6所示。 如表所示本文提出的方法也得到了其他领域研究人员的关注并在各种任务中表现出了良好的性能。
消融实验
CNN层数和自关注层数对UFEN的影响 表7的实验结果显示了CNN层数和自关注层数对UFEN的影响。从结果中可以看出多层特征提取的效果要优于单层特征提取。但随着层数的增加实验结果呈现出先变好后逐渐变差的趋势。当特征提取层数设置为2时模型表现最佳。这是由于该模型对单模态数据中的时态情感表示信息给予了更多的权重。通过两层模态内信息提取提高了单模态特征的信噪比为后续的多模态融合奠定了良好的基础。当UFEN层数增加到3层和4层时模型的性能逐渐变差。原因可能是过度提取导致特征融合后情绪信息的不平衡性增加模型趋于过拟合。同时更深层次的特征提取需要更大的训练数据量。
结合不同单模态任务的情感分析结果 表8显示了融合模态结合不同单模态任务的情感分析结果。从结果可以看出引入单模态子任务可以显著提高模型的性能。随着子任务数量的增加模型的性能趋于更好。综合所有结果来看视觉模态带来的增益是最明显的。这是因为视觉模态包含了大量的图像信息包括不同面部区域的运动和微表情。文字模式比音频模式提供了更多的增益。我们分析这是因为与语音相比文本已经被人类进行了抽象和压缩这显然比模型提取的语音特征更准确。同时文本情态中的句子词汇已经包含了丰富的语义知识。然而由于不同人的性格或文化影响的差异在语音情态中准确提取情感表征更加困难。
为了更好地理解模型中不同模块的贡献我们对UFEN和MTFN进行了消融研究如表9所示。 对于UFEN的消融实验
自注意层与Conv1D的作用
分别去掉自关注层和Conv1D层后各指标的表现均有所下降。这是因为单模态情绪信息没有被更精确地提取出来。没有这两层中的一层模型只能获得多层去加权分布特征或单层权重特征无法达到多层特征融合的最佳性能。但是结果并没有出现更严重的退化。我们分析这可能是由于UFEN中Conv1D和self-attention的数量设置为2。处理次数的增加可以弥补由于缺乏多层特征权重而导致的性能下降。
Bi-GRU的作用
如果没有Bi-GRU模型的性能会明显下降。这是因为Bi-GRU同时考虑了输入序列的前向和后向信息。使用Bi-GRU可以使模型理解序列中的上下文和依赖关系这在单模态时间特征提取中起着重要作用。在去除Bi-GRU后该模型无法准确表征单模态数据的粗粒度情感而这对多模态情感分析至关重要。
对于MTFN的消融实验
跨模态注意和编码器-解码器层的作用
在分别去掉跨模态注意层和编码器-解码器层后模型的性能有一定程度的下降特别是在Acc5和Acc7等更复杂的任务指标上。我们分析这可能是因为这两层专注于模态融合后的高维特征提取。多极情感分析需要模态和深层特征之间更多的信息连接来保持稳定的准确性。对于简单的任务UFEN已经获得了单模态情感表示。如果我们忽略模态之间的信息交互简单地融合单模态信息模型也可以获得相对稳定的Acc2和相应的F1-score和Correlation。
多任务学习的作用
如果没有多任务学习模型的性能会显著下降这表明单任务情感分析在模态内和模态间信息处理后使用融合特征无法达到预期的结果。我们分析这可能是由于经过复杂处理后融合特征虽然具有更高维度的抽象特征但其包含的信息不足。对于这种情况在模型中加入单模态情感分析作为子任务可以解决这一问题。同时不同模态数据中包含的情感信息是高度相关的这符合多任务学习的设计理念。多任务学习在我们的模型中扮演着重要的角色。通过引入多任务学习该模型可以很好地结合多模态互补特征在各种评价指标上实现显著提升。 为了更好地理解超参数对模型性能的影响我们对学习率、批大小、训练时代和早期停止批进行了消融研究如表10所示。如表所示该模型在学习率为5e−3时表现最佳。较大的学习率会导致训练过程中的不稳定性使模型无法正常收敛。较小的学习率会导致模型陷入局部最优状态。至于批大小较小的批大小在SIMS数据集上获得了最好的结果而MOSI数据集则需要更大的批大小。我们假设这是由于SIMS的数据质量更好它具有更详细的情感特征。这种现象也体现在训练时代。SIMS在更多的epoch下可以获得更好的结果但是随着epoch数量的增加精度不会继续提高计算消耗会大大增加。对于早期停止批过大的参数会使模型无法完全收敛导致精度略有下降。因此选择合适的早停参数也有助于减少训练过程中的计算成本。
可视化分析 在本节中我们进行可视化分析是为了更清晰地观察模型在训练和测试过程中的表现。首先我们使用t-SNE可视化MOSI和SIMS的多模态数据集结果如图8所示。t-SNE算法可以将模型学习到的复杂特征映射到二维特征点上模型性能表示为不同特征类别的聚类效果。
从图8中可以看出该模型在MOSI和SIMS测试集中具有较好的分类效果说明该模型有效地捕获了情感相关特征充分挖掘了模态内部和模态之间的信息关联。此外可视化结果表明MOSI的类内距离较小类间距离较大而SIMS的分布更为分散。这一现象与“烧蚀研究”一节的实验结果类似 模型在SIMS数据集上的评价指标结果低于MOSI数据集。损失值是量化模型性能的重要指标。我们在训练集和验证集中跟踪了训练过程中的损失结果如图9所示。虽然在验证集上的性能不如在训练集上的理想但所有的损失值都随着epoch的次数呈现下降的趋势。这种现象表明模型像我们预期的那样学习了数据中的情感表示。为了更清晰地表达模型的效果我们在SIMS测试集中选择了4个样本对每个模态的情感分析结果进行了详细的分析。这四个样本所表达的情绪包括正态、负态和不对称(不同模态中的正态和负态分布)。在SIMS数据集中选择样本的原因是每种模态都有相应的标签这便于研究人员讨论每种模态的结果。在实验过程中我们选择Self-mm作为我们的比较模型因为它和我们的方法在各种评价指标上并没有太大的差异。结果如图10所示。 对于代表积极情绪的样本两种方法在融合模式下的预测都相对准确但我们的方法更接近标签。在单模态情感分析方面对比模型将样本的视觉情态、音频情态和文本情态预测为负面标签。我们的方法准确地预测了视觉情态、文本情态为积极。虽然我们的方法错误地将语音情态预测为否定但预测得分比比较模型更接近基本事实。这表明我们的模型可以准确地提取不同模态下的同类型情感信息并有效地融合。对于代表负面情绪的样本两种方法在所有模态下都做出了准确的预测。但我们的方法在所有模态中都更接近基本事实。这表明该模型对负面情绪特征很敏感可以更准确地识别负面样本。对于难度更高的样本在融合模式和音频模式下表示为中性在视觉模式下表示为正在文本模式下表示为负。我们的模型比将所有模态预测为阴性的对比方法表现更好。尽管融合模式和音频模式被预测为偏向负面情绪但得分非常接近中性情绪。这表明我们的方法可以结合样本中的模态内和模态间信息并利用多层特征提取和模态间的信息交互在不平衡表示下获得准确的预测结果。
在这个实验中我们还发现对于许多样本这两种方法都预测语音模态为负。我们分析这可能是由于数据集中样本的不平衡。在SIMS数据集中负面和中性情绪表示约占70%这使得模型难以准确预测包含较少情绪信息的音频模态。这是我们未来想要研究和解决的问题。