2019_AAAI_ICCN

Learning Relationships between Text, Audio, and Video via Deep Canonical Correlation for Multimodal Language Analysis

论文地址：https://arxiv.org/abs/1911.05544

在情感分析或情感识别任务中，文本特征通常优于非文本特征，原因如下：

文本本身包含更多与情绪相关的信息。
视觉或听觉信息有时会混淆情感分析任务。例如，愤怒和兴奋可能有类似的声音表达（高音量和高音调），尽管它们是相反的情绪。同样，悲伤和厌恶也可能有不同的视觉特征，尽管它们都是负面情绪。
文本分析算法历史丰富，研究良好。

基于此观察，学习语言信息与非语言信息之间的隐藏关系是多模式语言分析的关键。这可以通过研究结合不同的多模态特征来实现。

同时将音频和视频特征添加到相同的文本信息中，可以更好地理解非文本信息。相反，非文本信息也可以给文本信息带来更大的意义。因此，研究基于文本的音频与基于文本的视频特征之间的深层关系是合理的。基于文本的音频和基于文本的视频是文本和音频的外积，以及文本和视频的外积。

使用典型的相关分析来更好地关联基于文本的视频和基于文本的音频(CCA)。然而CCA我们只能学习线性变化和深度典型的相关分析(DCCA)允许使用深度神经网络CCA处理非线性关系。基于此，本文使用DCCA关联基于文本的音频和基于文本的视频。

最后，两个CNN输出的投影与原始文本句子的单词嵌入相连，作为最终的多模式嵌入，可用于情感分析等下游任务。

1、典型的相关分析CCA&深度典型的相关分析DCCA

CCA它是一种多元化的统计方法，利用综合变量之间的关系来反映两组指标之间的整体相关性。CCA用于寻找两个输入相关性最大的线性子空间。

给定两组向量 $X\in R^{n_1\times m}$ 和 $Y\in R^{n_2\times m}$