同时利用字幕、音频、视频进行检索!Inria&谷歌提出MMT用于高效跨模态视频检索,代码已开源!...
时间:2023-04-21 04:37:00
关注微信官方账号,发现CV技术之美
▊写在前面
与自然语言查询相关的视频内容在有效处理互联网规模的数据集中起着关键作用。大多数现有文本到视频检索方法都没有充分利用视频中的跨模态线索。此外,它们以有限或无时间信息的方式聚合每帧的视觉特征。
本文提出了多模态Transformer(MMT)联合编码视频中的不同模式,使其中的每一帧都能关注其他模式。Transformer该架构还用于编码和建模时间信息。实验表明,本文提出的多模态Transformer能够在多个数据集上实现SOTA视频检索性能。
▊1. 论文及代码地址
Multi-modal Transformer for Video Retrieval
论文地址:https://arxiv.org/abs/2007.10639
代码地址:https://github.com/gabeur/mmt
▊2. Motivation
视频是最受欢迎的媒体形式之一,因为它可以捕捉动态事件,自然地吸引人类的视觉和听觉感官。在线视频平台在促进这种媒体形式方面发挥着重要作用。
然而,如果这些平台上数十亿小时的视频无法有效访问,例如通过查询和检索相关内容,则这些平台上的视频将无法使用。
在本文中,作者解决了从文本到视频和视频到文本的搜索任务。在从文本到视频的搜索任务中,给出一个文本形式的查询,目标是搜索最好描述其视频。
事实上,模型的目标是为每个文本查询提供所有候选视频的排名,以便与文本查询相关的视频排名尽可能高。另一方面,从视频到文本检索的任务是在文本候选集中找到最能描述查询视频的候选文本。
检索问题的一种常见方法是学习相似性,即学习衡量两个元素(查询和候选元素)相似性的函数。然后,所有候选人都可以根据与查询的相似性进行排序。为了执行排名,文本和视频被表示在公共多维嵌入空间中,其相似性可以计算为相应的点积。这里的关键问题是如何学习文本和视频的精确表示,以建立相似性估计。
文本的学习表征已被广泛研究,可用于编码文本。与这些进步相反,学习有效的视频表达仍然是一个挑战,这也是本文工作的重点。视频数据不仅外观不同,而且在运动、音频、叠加文本、语音等方面也不同。
因此,充分利用跨模态关系是构建有效视频的关键 。如上图所示,从所有组成模式中联合提取的线索比单独处理每个模式更信息化。
最近的视频检索工作并没有充分利用这种跨模式的高级语义。视频所表达的另一个挑战是它的时间性。由于视频的可变持续时间难以处理,目前的方法通常通过聚合视频中不同时间提取的描述来丢弃长期时间信息。作者认为,这些时间信息对视频检索任务非常重要。
综上所述,作者提出了多模态Transformer解决视频数据中的时间和多模态挑战。它执行的任务是处理视频中不同时间从不同模式中提取的特征,并将其聚集在紧凑的表示中。
基于Transformer本文的多模态架构transformer利用自我注意机制收集视频中事件的跨模态和时间线索。作者将本文的多模态Transformer它集成到一个跨模态框架中,充分利用文本和视频信息,并估计它们的相似性。
▊3. 方法
本文的总体方法依赖于学习函数来计算两个元素(文本和视频)之间的相似性,如上图所示。然后,作者根据文本到视频(或视频到文本)检索中与查询文本(或视频)的相似性,对所有数据集中的视频(或文本)进行排序。
换句话说,给定n个视频文本对数据集的目标是学习视频和文本之间的相似性函数。如果,返回高相似度值;否则,返回低相似度值。
3.1 Video representation
视频级表示本文提出的多模态Transformer(MMT)来计算。MMT遵循Transformer编码器的结构。它由堆叠的自注意层和全连接层组成。MMT的输入() 它是一组嵌入式,所有嵌入式都是相同的。每个特征都嵌入了特征的语义、模式和时间信息。输入可以表示为以下公式:
Features
为了有效地从视频数据中的不同模式中学习,作者从视频特征提取器开始,称为专家。与以往的方法相比,MMT学习了专家之间跨模式和长期关系的联合表达。
作者使用N个预训练专家。每个专家都是为特定任务训练的模型,然后从视频中提取特征。v,每位专家提取K个特征的序列。
专家提取的特征编码了视频的语义。每个专家的输出特征是。为了将不同的专家特征投射到公共维度,作者学习了NFC层(一个专家)投影所有特征。
Transformer编码器生成嵌入每个特征的输入,从而为一个专家生成多个嵌入。为了获得每个专家的唯一嵌入,作者定义了一个聚合嵌入,它将收集专家的信息和上下文化。
作者利用所有相应专家特征的最大池化聚合(max-pooling aggregation)这个嵌入是初始化的,得到的。然后,视频编码器的输入特征序列采用以下形式:
Expert embeddings
处理跨模态信息,MMT需要确定它关注的专家。因此,作者学习了N个嵌入来区分不同专家的嵌入。因此,视频编码器的专家嵌入序列采用以下形式:
Temporal embeddings
视频中的特征具有时间序列信息。考虑到最大持续时间为秒的视频,作者学习了一个维度的嵌入特征。嵌入时间范围内提取的每个专家特征。此外,作者还学习了另外两个时间嵌入和编码聚合特征和未知时态信息特征。视频编码器的时间嵌入序列如下:
Multi-modal Transformer
如上图所示,视频嵌入()是特征、专家和时间嵌入的和,这也是MMT即:
MMT将其输入上下文化并生成视频表示。作者只保留的各专家在输出时的聚合特征:
与collaborative gating本文的机制相比MMT有两个优点:首先,输入嵌入不仅仅是在一个步骤中进行调整,而是通过多个注意力层次进行迭代优化。
其次,作者提供了从视频中提取特征的所有时刻的提取特征和时间代码。由于其自注意模块,本文的多模态Transformer每一层都可以处理所有输入嵌入,从而提取视频中事件在多个模式下的语义。
3.2 Caption representation
作者分两个阶段计算文本:首先,作者获得了文本的嵌入,然后使用函数将其投影到不同的空间,即?。嵌入函数h,作者使用预训练BERT模型。
具体来说,作者从BERT的[CLS]文本嵌入从输出中提取。为了匹配文本的大小和视频的大小,学习函数可以作为多个门控嵌入模块来匹配不同的视频专家。因此,文本嵌入可以表示为。
3.3 Similarity estimation
最终视频文本的相似性是对各专家视频文本相似性的加权,如下所示:
它表示了第一个专家的权重。这种权重应用于文本表示上的线性层Softmax实现:
它表示线性层的权重,使用加权和的原因是文本可能无法统一描述视频中的所有模式。例如,在一段视频中,一个穿红色衣服的人正在唱歌,文本穿红色衣服的人没有提供与音频相关的信息。相反,有人在唱歌的文本应该关注计算与音频模式的相似性。
3.4 Training
作者采用了bi-directional max-margin ranking loss计算损失函数:
其中为batch大小是视频和文本之间的相似性得分。强制匹配视频文本的相似性至少高于不匹配。
▊4.实验
4.1. Pretraining
上表显示在HowTo100M预训练和在MSRVTT从微调的结果可以看出,预训练有助于提高性能。
上表显示在HowTo100M预训练和在ActivityNet微调结果。
上表显示在HowTo100M预训练和在LSMDC微调结果。
4.2. Laguage encoder
上表展示了不同本文编码器的实验结果,可以看出,BERT微调后的实验结果是最好的。不微调的BERT效果较差,这可能是因为预训练数据集和下游任务数据集的域差距较大。
4.3. Video encoder
上表展示了不同输入和Encoder网络结构的实验结果。
上表展示了不同初始化专家聚合特征的实验结果。
上表展示了不同层数和head数的实验结果。
4.4. Comparison of the different experts
上表展示了在模型上使用不同的专家的实验结果,可以看出单独的音频专家并不能提供良好的性能,但与其他专家一起使用时,它的贡献最大,很可能是因为与其他专家相比,它提供了互补的线索。
4.5. Comparison to prior state of the art
上面三个表格展示了本文方法和SOTA方法在MSR VTT、ActivityNet、LSMDC数据集上对比。可以看出,跟SOTA方法相比,本文的方法在性能上具有绝对的优势。
▊ 5. 总结
在本文中,作者提出了multi-modal transformer(多模态Transformer) ,这是一种基于transformer的结构,能够处理在不同时刻从视频中的不同模态提取的多个特征。
这利用了时间和跨模态线索,对于准确的视频表示至关重要。作者将此视频编码器与文本编码器合并到跨模态框架中,以执行视频文本检索,并在多个数据集上达到了SOTA的性能
▊ 作者简介
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV
END
欢迎加入「视频检索」交流群👇备注:检索