当前位置: 首页 > news >正文

手机网站图片 触摸 放大代码 jsseo外链发布

手机网站图片 触摸 放大代码 js,seo外链发布,网站设计需要多少费用,软件产品如何做网站推广在MSA领域#xff0c;文本的准确度远远高于音频和视觉#xff0c;如果文本能达到90%#xff0c;那么音频和视觉的准确度只有60%~80%#xff0c;但是过往研究很少针对情感分析的背景下去提高音频和视频的准确度。 abstract#xff1a; 多模态情感分析#xff08;MSA文本的准确度远远高于音频和视觉如果文本能达到90%那么音频和视觉的准确度只有60%~80%但是过往研究很少针对情感分析的背景下去提高音频和视频的准确度。 abstract  多模态情感分析MSA在智能问答、计算机辅助心理治疗和视频理解等领域发挥着重要的作用近年来引起了人们的广泛关注。它利用多模态信号包括口头语言、面部手势和声音行为来识别视频中的情绪。在MSA中语言形态通常优于非语言形态。因此加强语言在语篇分析中的重要性将是提高识别准确率的重要途径。考虑到句子的意义在不同的非语言语境中往往是不同的将非语言信息与文本表征相结合有助于准确理解话语所传达的情感。在本文中我们提出了一个跨模态增强网络CENet模型通过将视觉和声学信息集成到语言模型中来增强文本表示。具体来说它将一个跨模态增强CE模块嵌入到一个基于转换器的预训练语言模型中该模块根据未对齐的非语言数据中隐含的远程情感线索来增强每个单词的表示。此外引入了声学和视觉模态的特征转换策略以减少语言和非语言模态初始表征之间的分布差异从而促进不同模态的融合。在基准数据集上进行的大量实验表明CENet比最先进的方法取得了显著的进步。 intro 人类自然地通过语言、声音和视觉等多模态信号进行交流[1]。 因此理解话语中所传达的情感需要对不同形态的全面理解。随着以人为中心的网络视频的爆炸式增长利用语言文本、声学和视觉模式识别视频中人类情感的多模态情感分析MSA近年来受到了广泛关注[1][2]。尽管许多先前的工作在MSA任务上取得了很大的进展但由于异构模态之间的巨大模态差距实现与人类相当的性能仍然具有挑战性 基于变压器的预训练语言模型[3]-[5]在自然语言处理NLP领域取得了显著的成功因为它们具有强大的上下文语义特征提取能力和通过微调在下游任务中的通用性。最近的研究表明在MSA中使用预训练的语言模型可以大大提高识别准确率[2][6]-[8]。交互典型相关网络ICCN[6]利用深度典型相关分析分别学习基于文本的音频嵌入和基于文本的视频嵌入然后将这两种嵌入与文本嵌入融合。MISA[2]首先利用三个独立的网络学习三个单模态表征然后通过多任务损失学习模态不变表征和模态特定表征。Self-MM[7]提出了一种自监督策略来获取单模态标签然后通过基于多模态标签和单模态标签的多任务框架学习模态间一致性和模态内特异性。上述工作使用BERT[3]作为文本特征提取器并取得了良好的效果。 预训练语言模型是在大型文本语料库上训练的可以极大地促进对文本情态情感的理解。而对于声学和视觉模态通常首先使用COVAREP[9]和Facet 1等特征提取工具提取手工制作的特征。然后使用序列神经网络如LSTM[10]学习话语级表示。与预先训练的语言模型学习到的文本特征相比非语言特征相对欠发达。因此语言情态言语情态在MSA中的表现通常优于非言语情态。为此加强语篇分析中语言情态的重要性将是提高语篇分析识别准确率的可行途径。此外考虑到一个句子在不同的非语言语境中可以有不同的含义如面部表情和声调将非语言信息整合到语言模型中可以帮助准确理解话语中所传达的情感。 在本文中我们提出了一个跨模态增强网络CENet模型通过结合视觉和听觉模态的情感信息来增强文本表示。 CENet的核心是跨模态增强Cross-modal Enhancement CE模块该模块可以嵌入到基于转换器的预训练语言模型中。CE模块由两部分组成跨模嵌入单元和增强嵌入门。跨模态嵌入单元侧重于从未对齐的非语言数据中捕获远程非语言情感线索。远距离非语言情绪线索是指从不同时间戳的非语言框架中提取的情绪信息。一般来说语言、视觉和听觉形式的相关信息是异步的[11]。如图1所示“awful”是一个情绪性的词在说这个词的时候信息性的面部表情会出现在不同的时刻。 基于自注意的跨模态注意[11]可以从未对齐的多模态数据中捕获远程依赖关系。因此我们使用它分别从音频和视觉中获取每个单词的异步非语言情感语境。我们把这些视觉和听觉情感语境分别称为基于文本的视觉和听觉嵌入。增强嵌入门利用基于文本的非语言嵌入生成包含远程非语言情感语境的非语言增强嵌入。然后增强嵌入将在预训练的语言模型中更新文本表示 考虑到初始语言表征和非语言表征之间存在较大的分布差异我们引入了一种特征转换策略来减小分布差距。 受文本词汇衍生的标记索引序列的启发我们将声学和视觉框架的手工特征聚类分别建立“声学词汇”和“视觉词汇”。然后通过对非语言词汇的查询得到声模态和视模态的索引序列。通过这种方式高维非语言特征被转化为一个类似于文字标记的个体索引。因此异质性模式之间的初始分布差距被缩小这将进一步缩小融合阶段言语和非言语特征之间的分布差异。因此特征转换策略可以促进文本表征与非语言情感语境的整合。 本文贡献如下 本文提出了一个跨模态增强网络通过结合远程非语言情感语境来增强预训练语言模型中的文本表示。提出了一种特征转换策略通过减少语言和非语言模式初始表征之间的分布差异促进不同模式的整合。在两个基准多模态情感分析数据集上进行的大量实验表明该方法大大优于目前最先进的方法。 related work 在本节中我们首先介绍了一些与单模态情感分析和多模态情感分析密切相关的工作。然后讨论预训练的语言模型。 单模情感分析 文本基于文本的情感分析是一个活跃而成功的研究领域[12]-[14]。早期的作品通常使用词袋呈现文本话语然后利用SVM等机器学习方法对情感极性进行分类[15][16]。随着深度学习的发展CNN、递归神经网络RNN和长短期记忆LSTM被广泛应用于文本情感分析[17]-[20]。近年来基于自我关注的变压器[21]在自然语言处理的许多领域出现。与循环层和卷积层相比自注意层的计算效率更高也更容易学习到远程依赖关系[21]。为情感分析设计的基于transformer的预训练语言模型[22]-[25]极大地促进了文本情感分析的发展。 视觉视觉情感分析可分为图像情感分析和视频情感分析。对于图像情感分析许多作品采用微调预训练卷积神经网络CNN来获取与情绪相关的特征[26]-[30]。在视频情感分析中视觉信息在时间和空间上是分布的。通常采用3D卷积神经网络3D Convolutional Neural Networks, C3D或CNN LSTM从时空视觉输入中提取情感相关特征[31]-[33]。 音频对于声学情感分析声学低级描述符LLD的功能是在先验知识的基础上手工制作的在以前的作品中被用作情感识别的声学特征[34][35]。最近的研究使用深度神经网络Deep Neural Network DNN直接从原始音频信号中学习声学特征[36]-[39]。然后将这些声学特征馈送到序列神经网络如LSTM以捕获时间动态。 多模态情感分析 根据是否使用预训练的语言模型MSA的前期工作可以分为两类。 第一种方法不使用预训练模型。 这些方法通常使用GloVe[40]词嵌入然后使用LSTM[10]来提取语言表示。早期的工作[41]将不同特征提取网络获得的文本、视觉和声学表示连接起来然后利用多核学习MKL作为分类器来预测情感强度。卷积循环多核学习CRMKL[42]是[41]的改进版本。它结合CNN和RNN从视觉数据中提取时空特征并应用MKL作为分类器。 然而直接组合不同的单峰表示可能会导致信息丢失。为了避免这个问题后续的工作通常侧重于设计复杂的融合框架。 张量融合网络Tensor fusion network TFN[43]通过模态嵌入子网络学习模态内动态通过计算外积获得模态间相互作用。尽管TFN可以很好地融合多模态信息但它的计算成本很高。低秩多模态融合Low-rank multimodal fusion LMF[44]通过低秩张量降低了TFN的计算成本。递归参与变异嵌入网络Recurrent attended variation embedding network RAVEN[45]利用细粒度的非言语子词信息动态调整词表示实现多模态融合。 因子化多模态变压器Factorized multimodal transformer FMT[46]应用因子化多模态自注意Factorized multimodal self-attention FMS构建多模态交互。FMS考虑了三种模式组合中的所有因素作为输入。多模态转换器Multimodal transformer, MulT[11]利用跨模态注意力将一种模态转化为另一种模态反之亦然从而在不同模态之间建立相互作用。与MulT不同我们的方法利用跨模态注意捕获的远程情感线索来增强文本表示。换句话说信息流是单向的从非语言形态到文本形态 第二种方法利用预先训练好的语言模型提取文本特征通常比第一种方法获得更好的结果。交互规范相关网络ICCN[6]通过深度规范相关分析构建文本和非语言模式之间的交互。 MISA[2]通过四种不同的损失函数学习每种模态的不变表示和特定表示然后融合不同的表示来预测情绪。自监督多任务多模态情感分析网络Self-MM[7]引入了自监督标签生成模块来获取额外的单模态标签。然后通过对一个多模态任务和三个单模态子任务的联合学习获得信息丰富的MSA单模态表示。CM-BERT[47]利用掩模多模态注意动态调整BERT输出的每个词级特征的权重。它只利用声模态信息来调整文本特征。与CM-BERT不同我们的CENet将CE模块获得的非语言增强嵌入添加到预训练语言模型中间层输出的文本表示中。CENet通过利用声音和视觉模式的情感信息来增强文本表示。MAGBERT[8]引入了一个多模态适应门使BERT[3]能够接受非语言模态的表征。 在本文中我们还将声学和视觉信息集成到基于转换器的语言模型中。然而我们的方法可以从非对齐的非语言数据中捕获异步情感线索以增强文本表示而MAG-BERT只能处理词级对齐的多模态数据。 预训练语言模型 与GloVe[40]相比预训练的语言模型在单词表示方面具有更优越的性能。ELMo[48]在大规模无监督语料库上预训练一个双向LSTM。GPT[49]是一种基于转换器的模型与ELMo相比它在捕获远程依赖关系方面表现更好。然而它们都是单向的语言模型限制了上下文表示能力的进一步提高 BERT[3]是一种基于transformer[21]的双向预训练语言模型。BERT通过使用掩模语言模型MLM预训练目标获得双向语境感知能力。XLNet也是一种基于变换的双向预训练语言模型通过在预训练阶段构建置换语言模型避免了传销预训练和微调阶段不一致的问题。大多数现有的预训练语言模型都是BERT和XLNet的变体。VideoBERT[50]是BERT的一种变体它应用向量量化使BERT模型联合接受视觉和语言标记序列。通过纯文本、纯视频和文本-视频预训练目标来学习视频和文本的双向联合分布。SentiLARE[25]是一个基于变压器的预训练模型专门为情感分析任务设计。它继承自RoBERTa[5]将词性标签、情感极性等语言知识整合到语言模型中。 与VideoBERT类似我们将矢量量化应用于非语言数据的特征变换策略中。我们的特征转换策略的动机是减少异构模式之间的分布差异。而VideoBERT使用矢量量化来鼓励模型关注视频中的高级语义和长期时间动态而不是低级属性如局部纹理和运动。此外VideoBERT将单词标记与视觉标记相结合并利用BERT直接学习多模态表示。而我们的CENet首先利用一个额外的模块来提取非语言特征然后将非语言特征集成到预训练的语言模型中。本文分别使用SentiLARE、BERT和XLNet作为语言模型对CENet框架进行综合评估。 跨模态增强网络 在本节中我们首先介绍MSA任务设置。然后介绍了特征变换策略和跨模增强模块。最后描述了CENet模型的总体体系结构。 任务设置 多模态情感分析是利用多模态信号对视频片段进行情感检测。对于视频片段X它由文本(t)、声学(a)和视觉(v)序列三部分组成分别表示为 和代表第i个单词第i个音频帧和第i个视觉帧 对于文本序列Xt我们使用预训练语言模型的标记器来获得其相应的标记序列 对于声学序列和视觉序列我们分别使用Facet和COVAREP[9]提取它们的原始特征。 原始的声学和视觉特征序列表示为 其中da和dv分别是声学和视觉特征维度提取非语言特征的细节在实验设置部分讨论 给定一个视频片段X CENet的目标是预测X的情绪强度y其中y∈[- 3,3]是一个连续的强度变量y 0表示积极情绪y 0表示消极情绪y 0表示中性情绪。 非语言模式的特征转换 对于预训练的语言模型初始文本表示是词汇表中的单词索引序列。然而视觉和声学的表示是真实的矢量序列。因此我们提出了一种将非语言向量转化为指数的特征转换策略以缩小异质模态之间的初始分布差异从而进一步缩小语言与非语言的分布差距因此它将促进文本表征和非语言情感语境的整合。 特征转换策略利用无监督聚类算法分别建立“声学词汇”和“视觉词汇”。通过查询非语言词汇可以将原始特征序列转换为索引序列。图2显示了特征转换过程的示意图。 Q我其实不懂是不是从数据集提取出的特征是单词索引序列然后这里的预训练语言模型指的是bert初始特征经过bert提取出更高维的表示视觉和声学一般用sLSTM提取这里的真实的矢量序列又是什么意思 A文本初始被表示为词汇表中的单词索引序列预训练语言模型Bert将他的单词索引序列转化为高维的词向量表示(嵌入)捕捉词语的语义信息。而视觉和声学通过特征提取工具从原始数据中获取的实值向量序列比方说用OpenFace提取面部表情、动作单元等特征每一帧对应一个特征向量。声学特征也是一样的比如使用COVAREP提取音频信号的特征如基频、能量、声谱等每一帧也对应一个特征向量。 问题在于文本特征往往是离散的索引序列词汇表通常有限例如3万个单词 视觉和声学特征是连续的、高维的实值向量序列维度可能高达几十到上百维。其次不同模态的初始特征分布存在显著差异直接融合会导致模型难以有效学习跨模态的关联。 特征转换策略的目的就是缩小模态之间的分布差异将视觉和声学的实值向量序列转换为类似于文本的索引序列。这样三种模态都以索引序列的形式表示方便统一处理和融合。 在往下看具体理论之前我先大致讲一下如何建立视觉和声学的索引 首先我们需要提取原始特征通过分词器将文本转换为单词索引序列例如句子“我很开心”可能被转换为[101, 2769, 2523, 6887, 102]其中每个数字代表词汇表中的一个单词。至于声学和视觉信息用特征提取工具获取每一帧的声学和视觉的特征向量这些特征向量是实值的例如一个88维的向量 接下来使用无监督聚类算法k-means对大量的视觉和声学特征向量进行聚类目的是将相似的特征向量归为一类每一类代表一个“词”聚类中心代表该类的典型特征。 比如说视觉词汇表包含500个视觉“词”聚类中心声学词汇表包含500个声学“词” 下一步将特征向量转换为索引序列。对于每一个视觉或声学特征向量找到距离最近的聚类中心2fi是第i帧的特征向量cj是第j个聚类中心也就是词汇表中第j个词||  * ||2是欧式距离即L2范数indexi是第i帧对应的词汇索引。 接下来原始的视觉或声学特征序列会被转换为索引序列例如[45,12378...] 为了区分不同模态的索引防止索引冲突。 文本索引保持原有索引例如[101,2769,2523,6887,102] 声学索引在索引上加了一个偏移量声学索引 原索引 40000 视觉索引类似地加上另一个偏移量视觉索引 原索引 50000 接下来多模态索引序列融合 要根据时间戳将三种模态的索引序列对齐。将对应时刻的索引组合起来形成一个多模态的索引序列。 比如 时间1        文本索引101        声学索引40045        视觉索引50012 时间2        文本索引2769      声学索引40012        视觉索引50078 组合后的序列为[101, 40045, 50012, 2769, 40012, 50078,....] 将这些融合后的索引序列输入模型例如transformer...... 由于k-means方法计算复杂度低、简单等优点本文采用k-means方法学习非语言模态词汇。在不丧失一般性的情况下其他聚类和字典学习方法也可以用于学习声学和视觉词汇。  具体来说我们首先从训练集中收集所有的听觉和视觉片段帧形成两个帧集 Nm表示模态m的帧数。然后将Fm中的帧按k-means分成km组如下所示 是模态m的第j个聚类中心然后我们可以分别基于聚类中心Ca和Cv构建“视觉词汇”和“声学词汇”。 给定一个非语言特征序列 Lm是序列的长度 通过对非语言词汇的查询可以得到相应的索引序列 对于Sm中第i帧的特征查询过程计算如下 为第i帧的索引标号则得到索引序列作为模态m的表示。特征变换策略的过程如算法1所示。 请注意原始的非语言特征主要是内容无关的情感特征。因此避免了将内容相似但情感不同的框架划分为一个集群的琐碎解决方案 Q能解释一下吗 A好的我把算法1拆解一下 目标是将非语言特征序列转换为索引序列使其与文本索引序列同一表示便于多模态融合和模型处理。输入的是一个非语言特征序列S {f1f2....fN}其中fi表示的是第i帧的特征向量。输出的索引序列I {i1i2....iN}每个it都是对应于特征向量ft的索引值。 步骤 1准备聚类中心词汇表使用无监督聚类算法k-means对大量非语言特征向量进行聚类得到K个聚类中心构成非语言词汇表C {c1c2......ck}。这些聚类中心代表了非语言特征空间中的典型模式。 2特征向量到索引的映射对于序列中的每个特征向量ftt1,2,3...N计算与所有聚类中心的距离dtj || ft - cj ||2j 1,2,3...K其中|| * ||2表示欧式距离接着找到最近的聚类中心it argmindtjit就是ft映射到词汇表的索引。 3索引偏移模态区分为了区分不同模态的索引给视觉和音频模态的索引加上偏移量 4重复步骤2和3得到处理序列中所有的特征向量最终得到非语言特征的索引序列 接下来我具体举个例子 假设 聚类中心词汇表数量K 3 聚类中心c1 [1.0,1.0]c2 [5.0,5.0]c3 [9.0,9.0] 非语言特征序列f1 [2.0, 2.0]f2 [4.5, 5.5]f3 [8.0, 8.5]f4 [1.5, 0.5] 步骤 1计算距离并找到最近的聚类中心 对于f1 [2.0,2.0] 对于f2 [4.5,4.5] 对于f3 [8.0,8.5] 对于f4 [1.5,0.5] 假设以上的非语言模态指的是音频模态那么偏移量为40000 i1 1 40000 40001 i2 2  40000 40002 i3 3 40000 40003 i4 4 40000 40004 最终的索引序列为I {40001,40002,40003,40004} 接着将非索引序列与文本序列进行融合按照时间步对齐形成一个综合的输入序列。 跨模态增强模块 提出的CE模块将远程视觉和声学信息集成到预训练的语言模型中以增强文本表示。CE模块的架构如图5所示。 CE模块的关键部件是如图4所示的跨模态嵌入单元。它利用跨模态注意捕捉远程非语言情感信息并产生基于文本的非语言嵌入 具体来说给定一个索引向量 跨模态嵌入单元首先将其输入到嵌入层 式中Hm为嵌入层的输出dm为嵌入维数。嵌入层的参数是可学习的。 嵌入层的作用是将特征变换策略得到的非语言索引向量映射到高维空间。 为预训练语言模型中间层的输出文本隐藏表示dt为文本特征维数。跨模态注意中Q、K和V的定义与自注意中的定义相似[21]。 然后我们可以得到文本语态对非语言语态的注意权重矩阵 是注意力权重矩阵 的(i, j)-元素表示文本情态的第i个词对情态m的第j个框架的关注。 α是标度参数。 Q好像和注意力很相似 A你的感觉是对的先来看看self-Attention 而在CE模块中Q来自文本K和V来自另一个模态这使得文本模块可以基于这些非文本信息调整其对文本部分的解释和关注。 在初始训练阶段由于言语表征和非言语表征处于两个不同的特征空间言语表征和非言语表征之间的相关性很小。这样权重矩阵中的元素也会很小。为了更好地学习模型参数我们在softmax处理之前使用超参数α对矩阵进行缩放。 基于注意权重矩阵 我们可以得到基于文本的非语言嵌入如下 得到的基于文本的非语言嵌入可以看作是文本情态所选择的情态m中的潜在情感信息。 将基于文本的声学嵌入Ua→t和基于文本的视觉嵌入Uv→t相结合通过 其中“”表示串联操作Gate·为由完全连接的致密层组成的增强嵌入门。增强嵌入门的作用是将基于文本的声学嵌入Ua→t与基于文本的视觉嵌入Uv→t融合生成非语言增强嵌入E。 最后文本表示Ht将通过嵌入E as的非语言增强来更新 QE是如何影响文本表示的 AGood Question E是concat后的结果融合了视觉和声音信息这些信息通常包含与文本相关联的关键情感和语境表示E通过简单的向量相加直接作用于原始的文本表示这种直接修改方式允许E将视觉和声音模态的特征直接注入到文本的特征空间中从而实现特征的即时增强其实很常见的啦很多论文的原始文本特征都参与最终的决策因为文本准确率很高。 一般来说话语中的每个词都有一个非语言语境。 同一个词的上下文意思在不同的非语言中是不同的 此外非语言语境并不严格与单词同步如图1所示。因此我们提出CE模块生成非语言增强嵌入E为文本提供非语言上下文信息。通过在文本表示中加入非语言增强嵌入E可以使文本表示在语义上更加准确。如图3所示“You know he did it”这句话中的“did”是一个中性词而在一个微笑的表情和一个激动的声音的语境中“did”可以变成一个积极的词 CENet的整体架构 CENet的主要架构是将提出的跨模态增强模块整合到一个基于转换器的预训练语言模型中。图5显示了CENet的整体架构其中我们使用SentiLARE网络[25]作为语言模型。SentiLARE利用词性和词的情感极性等词汇语言学知识来学习情感感知语言表征。假设CE模块集成到预训练语言模型的第i层。算法2显示了训练阶段的CENet。值得注意的是任何基于转换器的预训练语言模型都可以与我们的CE模块集成 根据SentiwordNet的设置给定一个词序列Xt我们首先通过Stanford Log-Linear词性标注器POS Tagger[51]学习其词性序列Ipos通过SentiwordNet学习词级情感极性序列Ipolar[52]。然后通过预训练语言模型的标记器得到其标记索引序列。通过输入序列It、Ipos和Ipolar可以得到经过语言知识增强的初始文本表示为 其中BertEmdling表示BERT[3]中的嵌入操作embedding表示嵌入层。然后将通过1→i变压器层。我们称Hi为第i层的输出。CE模块嵌入在预训练语言模型的第i层和i 1层之间。 CE模块的输入是非语言索引向量Ia和Iv文本隐藏表示。 生成一个增强嵌入E然后文本表示将被增强嵌入E更新为 接下来更新后的文本表示将成为第i 1层的输入并通过剩余的M−i层其中M 12在SentiLARE中。对于第m层它的输出将是一个以文本为主导的高级情感表示包含视觉和声学信息 最后一步将文本表示输入到分类头中得到情感强度。 experiments datasets mosi和mosei略 特征提取 文本特征提取 大多数现有的工作使用来自GloVe或预训练语言模型的词嵌入。在本文中我们使用预训练的模型来获取单词嵌入。除了常用的BERT和XLNet之外我们还使用SentiLARE作为语言模型。与BERT和XLNet相比SentiLARE为每个句子增加了词性POS嵌入和词级情感极性嵌入。词性语义和词级情感极性分别来源于Stanford Log-Linear词性标注器[51]和SentiwordNet[52]。 视觉特征提取 对于MOSI数据集我们使用Py-Feat工具包[53]提取每个视觉帧的面部特征包括面部地标、7个面部表情和面部动作单元。通过计算眼睛的宽高比利用面部标志来选择睁开眼睛的帧。闭着眼睛的画面可能会导致表情分析的不确定性因此被丢弃。最后对睁开眼睛的每一帧形成包含面部表情和面部动作单元的27维特征。对于MOSEI数据集Facet用于提取包含面部动作单元和面部姿势的35维视觉特征。 音频特征提取 使用COVAREP软件[9]提取与情绪和语音音调相关的声学特征包括12个mel频率倒谱系数、音高、浊音/浊音分割特征、声门源参数、峰斜率参数和最大色散商。MOSI和MOSEI数据集的特征维度都是74 baseline 略 evaluation metrics 根据前人的研究[2]、[7]、[8]我们构建了二值分类和回归两个评价任务。对于二值分类报告了二值分类精度Acc-2和加权F1分数F1。有两种分类方式消极/非消极分类和消极/积极分类。对于回归识别性能由平均绝对误差MAE和皮尔逊相关Corr来评估。 参数设置 所提出的CENet由Adam优化器训练学习率在{1e−4,2e−5,4e−5,6e−5}之间。聚类数量为16CE模块的缩放参数α设置为8。CE模块嵌入在预训练语言模型的第一层和第二层之间除非另有说明。增强嵌入门中完全连接的致密层数为1。所有模型都使用MOSI的验证集来找到最合适的超参数。 与基线比较 CENet(S)的情感分析结果以及MOSI和MOSEI的基线如表1所示。CENet(S)模型使用了专门为情感语言处理任务设计的SentiLARE预训练模型。为了公平的比较我们重新训练了基线模型包括MISA(S), Self-MM(S)和MAG-SentiLARE(S)它们使用SentiLARE作为语言模型。在实验中在对齐的数据集上只使用为字级对齐数据集设计的方法在未对齐的数据集上使用其他比较方法和CENet(S)。 从表1中我们有以下观察结果。 对于单模基线文本模态优于非语言模态。SentiLARE在文本情态上给出了最好的结果BERT紧随其后。我们认为这可能有几个原因。首先大多数人喜欢用语言来表达他们的情感。其次在多情态分析领域非语言情态分析方法相对于预训练的语言情态分析方法还不发达。MISA(S)、Self-MM(S)和MAGSentiLARE(S)的结果分别优于MISA(B)、SelfMM(B)和magi - bert (B)。这表明SentiLARE的引入可以进一步提高SOTA方法的准确性。然而与SentiLARE在文本模态上的结果相比这些多模态方法的表现并不好。可能的原因将在后面的小节中讨论。CENet(S)在MOSI和MOSEI上都明显优于基线。MISA(S)、Self-MM(S)和MAG-SentiLARE(S)等多模态方法都使用SentiLARE作为语言模型但CENet(S)仍然大大优于它们。与SentiLARE相比CENet(S)实现了较大的性能改进这反映了在使用远程非语言依赖的预训练语言模型中增强文本表示的有效性。 人类表现结果在MOSI上的MAE和Corr分别为0.61和0.83[14]。CENet在MOSI上的表现甚至超过了人类 CENet与其他预训练语言模型 全面展示我们的CENet框架的有效性和通用性。我们分别采用BERT和XLNet作为CENet的语言模型。同时我们分别使用BERT和XLNet作为语言模型重新训练一些基线。结合表1和表2我们有一些新的观察结果如下 1)CENet(X)仍然优于这些基线在使用相同语言模型的情况下CENet(B)和这进一步证明了我们的CENet框架的有效性。 2) TFN(B)、LMF(B)、MulT(B)等多模态方法的结果均不如单模态方法T(B)。当使用XLNet作为语言模型时情况也是一样的。然而在表1中TFN、LMF和MulT的结果优于使用GloVe词嵌入的单模态方法T(G)。这说明BERT和XLNet预训练语言模型不适合TFN、LMF和MulT。值得注意的是GloVe是在他们各自的原始论文中使用的。我们认为造成这种现象的原因是三种多模态方法认为文本、视觉和听觉模态同等重要并将它们紧密结合在一起。使用GloVe词嵌入时语篇情态和非语言情态的表现非常接近。因此三种多模态方法相对于单模态方法都有一定的改进。然而当用BERT或XLNet词嵌入代替GloVe词嵌入时文本模态的性能大大提高言语模态和非言语模态之间的平衡被打破。在这种情况下深耦合融合方法可能会造成文本情态中情感信息的丢失。 3)与T(B)相比MISA(B)和Self-MM(B)的性能有所提高。然而当使用XLNet时情况就改变了。包括MISA(X)和Self-MM(X)在内的多模态方法没有达到单模态方法T(X)的改进。在使用SentiLARE作为语言模型时也是如此。MISA和Self-MM都利用多任务框架来通过改变簇数来帮助学习模式特异性和表III ACC-2 ON MOSI。V和A分别表示视觉模态和声学模态不变表示。在这种情况下文本表征在与非语言表征融合时能够保持良好的独立性。然而MISA和Self-MM认为文本、声音和视觉模式同样重要。当语言和非语言表现方式之间的差距进一步扩大时这些方法将遇到困难。 4) MAG-BERT(B)优于T(B), MAG-XLNet(X)也优于T(X)。MAG系列类似于我们的CENet。他们都使用非语言情感信息来增强文本表征。这种融合方法可以缓解语言和非语言表现极不平衡的问题。我们还观察到MAG-SentiLARE(S)的性能接近于T(S)。但不能全面超越T(S)。MAG的增强策略是在预先训练好的语言模型中使用与单词对齐的非语言特征来增强文本表示。它没有能力从非语言模式中捕捉到远距离的情感线索。此外模式之间存在较大的分布差异而MAG中使用的非语言特征并没有专门针对该问题进行处理。因此MAG捕获的增强信息不足以增强sentilaare中的文本表示。 我们的CENet利用从远程非语言特征中捕获的情感线索来增强预训练语言模型中的文本表示。并采用转换策略来减小异构模态之间的分布差异。大量的实验表明我们的CENet结合几个预训练的语言模型可以取得很好的效果。 簇数的影响 在本文中我们设计了一种基于聚类的特征转换策略将矢量量化应用于声学和视觉特征。聚类数是特征变换的一个重要因素。它决定了索引向量是否充分地表示了原始特征。为了研究聚类数的影响我们使用Transformer提取非语言表示并使用两个完全连接的层来预测MOSI数据集上的情感强度。从表III中我们可以看到16是一个合适的集群号。这意味着更少的集群不能完全分离差分帧而更多的集群分离相似帧。 特征转换Vs.原始特征 为了验证我们的特征转换策略的作用我们设计了两个比较实验 在第一个实验中我们分别比较了转换后的特征嵌入和原始手工特征输入的两层Transformer的性能。将特征变换策略与嵌入层相结合得到变换后的特征嵌入。利用一个完全连接的层作为头部来预测情绪强度。如表4所示转换后的特征嵌入在视觉和声学模式上都优于原始特征。 这表明非语言词汇可以代替非语言的原始特征而不会造成性能损失。 在第二个实验中我们分别比较了使用和不使用特征转换策略的文本表示和非语言增强嵌入之间的特征分布的Jensen-Shannon JS分歧。具体来说我们分别在MOSI数据集的验证集上使用转换后的特征嵌入和原始特征训练两个CENet模型。然后在CE模块中得到两种非语言增强嵌入和相应的文本表示。然后我们对收集到的非语言增强嵌入和相应的文本表示进行标准化然后通过计算JS散度来比较它们在各个维度共768个维度的分布相似度。图6分别给出了采用和不采用特征变换策略的文本表示与非语言增强嵌入之间的JS差异。我们可以观察到使用特征转换策略的JS平均发散比使用原始特征的要小得多。这表明特征转换策略可以减少语言和非语言特征之间的分布差异从而促进非语言数据中的情感信息融入到文本表示中。 在消融研究部分我们将进一步探讨将特征转换策略应用于CENet对性能的影响。 在不同层上嵌入CE模块的效果 本文研究了CE模块在不同层的嵌入对CENet性能的影响。我们将CE模块嵌入到i∈{0,1,2,4,6,8,10,12}的SentiLARE第1层之后并将相应的结果记录在表V的MOSI数据集上其中第0层表示嵌入层。很明显在较低的层中嵌入CE模块比在较高的层中嵌入CE模块可以获得更好的性能。对于文本模态表示在更高的层中更高级。由于非语言表征是相对较低层次的特征因此将CE模块嵌入较低层次将更为合适。 消融实验 为了进一步研究CENet中各组分的影响我们对MOSI数据集进行了全面的消融分析。以下是CENet的一些变体。 A→T以语言为目的情态以听觉为源情态。我们首先使用跨模态注意使声学模态适应语言模态然后将得到的基于文本的声学嵌入输入到SentiLARE的其余层中。自适应过程在SentiLARE的第一层之后执行。 V→T类似于A→T的设置只是用视觉模态代替听觉模态。 T在不整合非语言信息的情况下进行对话这相当于SentiLARE。 T A→T不整合视觉信息的CENet。 T V→T不整合声学信息的CENet。 T, A→T V→T典型的CENet。 T, Araw→T, Vraw→T: CENet不使用特征变换策略。 T,Araw Vraw使用MAG模块代替CE模块。也没有使用特征转换。 表六显示了CENet所有变体的结果。我们可以得出以下结论。 比较A→T和V→T与T的结果我们发现文本表示的性能优于基于文本的非语言嵌入。这似乎有两个原因1)预先训练的语言模型不适应非语言特征。2)非言语情态的特征不如语篇情态。T A→T和T V→T的表现优于T。这表明通过使用CE模块声音和视觉模式都可以为增强语言表征提供有用的信息。T, A→T V→T表现最好。这表明将听觉和视觉模态信息相结合可以进一步增强语言表征。T,Araw→T Vraw→T在Acc-2和F1得分上优于TAraw Vraw和T证明了CE模块的有效性。此外CE模块使用未对齐的非语言数据增强文本表示从而避免了繁琐的对齐工程。T、A→T、V→T的表现优于T、Araw→T、Vraw→T说明特征转换策略确实能够促进非语言情感信息整合到文本表征中。 定性分析 为了阐明CENet是如何工作的我们展示了一些使用和不使用跨模态增强嵌入的情况下CENet预测情绪强度的情况。表七展示了CENet如何通过整合非语言信息来调整情绪强度的一些例子。在第一个和第三个例子中没有跨模态增强嵌入的CENet仅用文本模态预测情感极性我们发现预测的情感强度不足。当加入增强嵌入时预测值几乎增加到真实情感强度。在第二个例子中仅从文本信息判断情感极性是有歧义的。在这种情况下非语言信息可以帮助模型确定情绪的极性。这些观察结果表明CENet可以成功地利用声学和视觉模式中的信息来增强情绪预测 conclusion 本文提出了一种跨模态增强网络CENet模型利用远程视觉和听觉情感信息增强预训练语言模型中的文本表示。此外还引入了特征转换策略来减小语言和非语言初始表征之间的分布差异。 大量的实验证明了CENet在基准数据集MOSI和MOSEI上优于最先进的性能。在未来的工作中我们将设计一个完全端到端的多模态学习模型来探索语言和非语言特征之间的相互作用
http://www.dnsts.com.cn/news/60413.html

相关文章:

  • 网站建设的产品类型是什么陕西金顶建设公司网站
  • 网站开发客户挖掘wordpress是什么来的
  • 地产项目网站网络软文营销案例3篇
  • 网站开发的业务风险网站建设公司价格
  • 文章类网站后台官网站内优化怎么做 2018
  • 网站seo推广优化报价表有服务器和域名怎么做网站
  • 如何建设黔货出山电子商务网站建设博客网站步骤
  • 目前做公司网站有没有用找logo的网站
  • 建站宝盒站群版开发楼盘需要多少钱
  • 天津网站建设优选企业专业的网站制作中心
  • 门户网站ip地址段品牌推广策划
  • 网站的黏度厨之梦进口食品网站谁做的
  • 常德网站建设套餐报价公司名称大全三个字
  • 优惠券网站要怎么做的建筑招工找活平台
  • 购物网站主页怎么做增城新塘镇 企业网站建设
  • 仿卢松松博客网站源码房产网站怎么做400电话
  • 自己做的网站把密码改忘了怎么办百度代理推广
  • 浙江省住房建设局网站首页秦皇岛在哪里属于哪个省
  • 静态网站开发黄页网站代码
  • 口碑好的宜昌网站建设加强网站建设和信息公开
  • 做网站优化哪家好导航网站怎么推广
  • 网站退出率南京品牌网站设计
  • 如何做网站内容构架图央视网新闻
  • 杭州电商网站建设深圳画册设计排版
  • 网站设计计划书如何搭建高品质网站
  • 怎么做记步数的程序到网站做阿里云网站的公司
  • 网站备案幕网站上的小动画咋做
  • 自己有网站怎么赚钱如何做品牌推广网站
  • 查关键词热度的网站wordpress文章手机平铺
  • 洛阳霞光做网站的公司模板厂家