锐单电子商城，一站式电子元器件采购平台！

电话：400-990-0325

【精华】多模态研究学习

时间：2022-11-03 04:30:00 2202传感器

文章目录

- - - 多模态研究学习
    - - 数据模态存储-多模态存储-数据模态
      - 1 多模态综述
      - 2 X-VLM
      - 3 ERNIE-VILG
      - 4 FLAVA
      - 5 OFA
      - 6 STA
      - 7 多模态行为识别综述
      - 8 多模态数据集

多模态研究学习

2021年诺贝尔生理医学奖揭晓，获奖者是戴维·朱利叶斯（DavidJulius）和阿代姆·帕塔博蒂安（Ardem Patapoutian），表彰他们对发现温度和触觉感受器的贡献。作为算法从业者，我们应该考虑什么？当人们感知世界时，主要的方式是视觉、嗅觉、听觉等。其中，语音、文本和图像是最重要的传播载体，这三个领域的研究近年来发展迅速。今天，让我们来看看它的交叉领域，即文本图像图文多模态，其实多模态涉及的领域很多，目前主流是文字图像这个分支。从2018年Bert横空诞生后，以预训练模型为基石的各个领域百花齐放。下面梳理的多模态预训练模型也是在这样的背景下诞生的，大概是2019年出现的。主要包括VILBERT、B2T2、LXMERT、VisualBERT、Unicoder-VL、VL-BERT、UNITER、Pixel-BERT、ERNIE-ViL、UNIMO、CLIP、FLAVA、ERNIE-VILG、X-VLM、OFA、STA等等。目前布局在这条轨道上的公司包括腾讯、百度、谷歌、微软Facebook、UCLA、京东、阿里等。

数据模态存储-多模态存储-数据模态

主要包括数据模式RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和WiFi等

1 多模态综述

多模态综述

2 X-VLM

字节 AI Lab 提出多模态模型：X-VLM，学习视觉和语言多粒度对齐

论文: https://arxiv.org/pdf/2111.08276.pdf
Github: https://github.com/zengyan-97/X-VLM

3 ERNIE-VILG

多模态生成模型ERNIE-VILG

论文: https://arxiv.org/pdf/2112.15283.pdf
体验接口: https://wenxin.baidu.com/younger/apiDetail?id=20008

4 FLAVA

最新图文大一统多模型：FLAVA

论文: https://arxiv.org/pdf/2112.04482.pdf
Github: https://github.com/Mryangkaitonggithub.com

5 OFA

ICML 2022年达摩院多模模型OFA，三个统一的模式、任务和架构

论文: https://arxiv.org/pdf/2202.03052.pdf
Github: https://github.com/OFA-Sys/OFA
体验接口: https://huggingface.co/OFA-Sys

6 STA

电子科技大学(申恒涛团队)&京东AI(梅涛团队)提出结构化的视频问答双流关注网络，性能SOTA！优于基于双视频表达的方法！

论文: https://arxiv.org/pdf/2206.01017.pdf

7 多模态行为识别综述

顶刊TPAMI 2022！基于不同数据模式的行为识别：最新总结

8 多模态数据集

Ego-4D
Facebook开源的Ego 4D（Egocentric 4D Perception）计划数据集是分析第一人称或以自我为中心的视频，由两个主要部分组成：一个以自我为中心的开放视频数据集和一系列Facebook将来给予AI系统基准。
Facebook与世界9个国家的13所大学和实验室合作收集数据。最新数据显示，共有约3205小时的镜头，由9个不同国家的855名参与者录制。参与者佩戴GoPro 相机和AR视频内容包括建筑工作、烘焙、与宠物玩耍、与朋友交流等。
JRDB
斯坦福视觉与学习实验室的研究团队被称为「JRDB：在人类环境中导航的视觉感知数据集和基准」的研究中介绍了他们从其社交移动操纵器 JackRabbot 收集的新数据集 JRDB。该数据集包括来自固定和导航机器人平台的传统代表性场景（如室内环境和行人区域）的数据。数据集包括 64 包括：
- 15 fps 的立体圆柱 360 度 RGB 视频
- 两个 Velodyne 16 激光雷达的 3D 点云
- 两个 Sick 激光雷达线 3D 点云
- 音频信号
- 30 fps 的 RGBD 视频
- 360 度球鱼眼镜头拍摄的图像
- 机器人车轮的编码器值

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

相关文章