锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

MMAction2-视频理解、行为识别(学习笔记-附代码实操)

时间:2023-01-03 15:00:00 102k400vac瓷片电容221k400vac陶瓷电容6j20高温电阻合金丝材

一、MMAction2-视频理解和行为识别

  • 行为识别,时序检测,时空检测三种任务的联系

    在这里插入图片描述

  • 理解视频

    视频 = 空间 时间:图像是二维空间,视频是三维,视频比图像多的维度是时间维度。

  • 视频理解的重点

    • 关键1:如何描述视频中的动作??

      动作 = 外观 运动。外观是静态的,是图像帧。运动是动态的,也称为帧间运动,是时间顺序的变化。

      • 思路1:独立提取图像特征,然后按顺序建模

        静态外观特征和动态时序的变化分为两个层次。

        第一层:提取每个图像的外观特征。

        第二层:在外观特征形成的序列基础上进行一次时序建模。

        根据动态信息获取动作特征,提取动态信息。

      • 思路2:外观特征与运动特征并行计算,最后融合

        首先,根据单帧图像提取外观特征

        通过相邻帧的变化,提取瞬时变化的信号,然后提取运动特征

        上述两步并行计算,最后集成

      • 思路3:利用更加强大的模型,从多帧图像直接计算运动特征

    • 关键2:如何高效处理视频数据?

      视频的数据量远远大于图像,一秒钟的视频包含20个~30个图像会给计算量和内存占用带来巨大的挑战

    • 重点3:如何使用无标记视频数据训练模型?

      标记视频的工作量是图像标记的100倍和1000倍。传统上精细标记每张图片是不现实的。

1. 光流和2D卷积(解决重点1,2)

  • 光流——捕捉视频中的运动。光流是图像平面上的向量场,通常根据相邻的图像帧进行估计。光流表示图像中每个点的位移。整个光流可以表达整个图像中每个点的位移方向和范围。

  • 光流的估计


    这里有些Latex符号会在这里报错,直接贴图。(Typora中打的)

  • 光流的可视化

  • 光流的两种类型

    颜色表示方向,亮度表示大小

    • 稀疏光流:跟踪少量感兴趣的点
    • 密集光流:估计所有像素的光流
  • 深入学习时代的视频理解

    • DeepVideo(2014)

      网络用图像分类AlexNet在每一帧图片上提取特征并融合在一起,但是性能没有提高。因为它只关注每帧图像的外观特征,不捕捉运动特征。

    • Two Stream Networks(2014)

      双流神经网络

      • Spatial stream是空间流,输入单个图像,主要提取每帧图像的外观特征
      • Temporal stream是时间流,以多帧光流作为输入,用卷积网络作用在光流场(即二维信号)上面取提取运动特征。
      • 最后,两个分支将外观特征和运动特征提取在一起
      • 解决重点2
        • 训练时:随机选择视频的某个时刻,计算图像的光流
        • 测试时:在所有时间进行预测,然后在所有时间进行平均分类概率
      • 双流神经网络存在的问题:双流网络专注于短时建模,动作由单一时刻的图像和光流决定,会有一些信息误解。因此,有必要长时建模,动作应由图像和运动信息确定

    • Temporal Segment Networks(2016)

      时序分段网络TSN

      • 当频进来时,不会逐帧采样,而是会按固定间隔采样。例如,将整个视频分为3个段落,每个段落取1个瞬间,再送进双流网络提取外观和运动的特点 。三段分别进行前、中、后动作预测。最后,整合得到全视频的动作预测。
      • TSN关键点:采用新的分段采样方式,而不是按一定的固定频率进行密集采样。有效扩大视野,使信息更加全面多样化。

2. 3D卷积网络(解决重点1,2)

相关文章