常用的公共数据集（二）

时间：2022-09-16 19:30:01 phd2条形连接器 d2sa系列激光传感器

一般视频

AlignMNIST- MNIST人工扩展版手写数据集。（en Hauberg）
视听事件（AVE）数据集- AVE数据集包含4143个数据集YouTube视频涵盖28个事件类别和AVE视听事件的视频在时间上标有视听事件的田亚鹏、景石、李伯辰、段志尧、徐晨亮)
多模态语义自我中心视频（DoMSEV）的数据集 - 多模式语义自我中心视频标记80小时（DoMSEV）数据集涵盖广泛的活动、场景、记录器、照明和天气条件。（UFMG，Michel Silva，华盛顿Ramos，Jo ?? o Ferreira，Felipe Chamone，Mario Campos，Erickson R. Nascimento）
DAVIS：2016年视频对象分割数据集-视频对象分割的基准数据集和评估方法（F. Perazzi，J。Pont-Tuset，B。McWilliams，L。Van Gool，M。Gross和A. Sorkine-Hornung）
DAVIS：2017年视频对象分割数据集- 2017年DAVIS视频对象分割挑战（J. Pont-Tuset，F。Perazzi，S。Caelles，P。Arbelaez，A。Sorkine-Hornung和L. Van Gool）
GoPro-Gyro数据集- 自我中心视频(林雪平计算机视觉实验室)
LIVE图像和视频质量评估- 开发图像质量算法(德克萨斯大学奥斯汀分校)
大型YouTube视频数据集- 从YouTube视频中捕获的156、823个视频(2、907、447个关键帧)（Yi Yang）
电影可记忆数据集- 令人难忘的电影剪辑和详细记忆的基本事实，从100部好莱坞电影开始（Cohendet，Yadati，Duong和Demarty）摘录中提取的660部短片
MovieQA- 每台机器通过回答他们的问题来理解故事。超过1.5万人选择QAs，400多部电影。（M。Tapaswi，Y。Zhu，R。Stiefelhagen，A。Torralba，R。Urtasun和S. Fidler）
多光谱可见近红外视频序列- 多光谱视频带注释，可见近红外（LE2I，Universit de Bourgogne）
时间数据集中的时刻- 时间数据集中的时间1M使用操作类型注释的3秒视频，是视频中识别和理解动作的最大数据集。(蒙福特、奥利瓦等人)
近似重复的视频检索数据集- 该数据库包括2010年7月至2010年9月的156、823个视频序列(2、907、447个关键帧)YouTube中抓取。（Jingkuan Song，Yi Yang，Zi Huang，Heng Tao Shen，Richang Hong）
PHD2.个性化突出显示检测数据集- PHD2是一个具有个性化突出显示信息的数据集，允许在预测过程中使用关于用户信息的突出显示检测模型。（Ana Garcia del Molino，Michael Gygli）
Sports-1M- 体育视频分类数据集包括487门课程和11门.2M视频。（Andrej Karpathy和George Toderici以及Sanketh Shetty和Thomas Leung以及Rahul Sukthankar和Li Fei-Fei。）
nuTonomy场景数据集（nuScenes）- nuScenes数据集是一个大规模的自动驾驶数据集。它有:全传感器套件(1)x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每200个场景s，1.4万个摄像头图像，4万个激光雷达扫描，两个不同的城市:波士顿和新加坡，左右交通，详细地图信息，25个对象手动注释，2Hz注释的1.1M 3D边界框，可见性，活动、姿势等属性。(凯撒等人)
基于相机的最小假设，研究欧几里得升级的视频序列（Kenton McHenry）
视频堆叠数据集- 虚拟三脚架用于智能手机上堆叠视频（Erik Ringaby等）
YFCC100M视频-YFCC100M视频子集的基准测试包括视频、视频内容功能和最先进的视频内容引擎API。（陆江）
YFCC100M：多媒体研究的新数据- 公开提供的1亿张照片和视频的规划数据集对每个人都是免费和合法的。（Bart Thomee，雅虎实验室和旧金山Flickr等）
YouTube-BoundingBoxes- 560个精确的人工注释来自23个对象类别BB，来自24万个YouTube关注人类(130万盒)的视频（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人)
YouTube-8M- 野外视频分类数据集包括8个M提前提取的帧级功能，视频和4800个类别。（Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，Paul Natsev，George Toderici，Balakrishnan Varadarajan， Sudheendra Vijayanarasimhan）
YUP /动态场景数据集- 来自60个不同场景的20个户外场景，每个都有60个彩色视频(每5秒，480个像素宽，24-30个像素宽fps）。一半视频使用静态相机，一半使用移动相机（Feichtenhofer，Pinz，Wildes）

十二、手、手、手和手势数据库

11k手--1,1,076手图像（1600 x 1200像素)190个主题，18岁 - 有元数据(身份、性别、年龄、肤色、手性、手、配件等。（Mahmoud Afifi）
200亿-Jester- 密集标记的视频剪辑显示了笔记本电脑摄像头或网络摄像头前预定义的手势（Twenty Billion Neurons GmbH）
估计单深图像三维关节手的姿势（Tang，Chang，Tejani，Kim，Yu）
人体操纵动作数据集- 25个物体和6个动作RGB-D（Alessandro Pieropan）
手势检测数据集（Javier Molina等）
A-STAR注释手深图像数据集和性能评估- 深度数据和手套数据，30名志愿者的29幅图像，中文数字计数和美国手语(徐和程)
博斯普鲁斯海峡手部几何数据库和手部静脉数据库(博阿齐奇大学)
DemCare数据集- DemCare数据集由一组来自不同传感器的不同数据集组成，可用于可穿戴/深度和静态IP用相机识别人类活动Alzheimmer用于步态分析和异常检测的语音识别和生理数据。（K. Avgerinakis，A.Karakostas，S.Vrochidis，I。Kompatsiaris）
EgoGesture数据集- 第一人称视图手势，包括83门课程，50门课程，6个场景，24161门RGB-D视频样本（Zhang，Cao，Cheng，Lu）
EgoHands- 一个拥有超过15,000个像素级分段指针的大型数据集，记录自人们以自我为中心的相机相互作用。（Sven Bambach）
EgoYouTubeHands数据集- 以自我为中心的手部分割数据集来自YouTube视频由1290个带注释的帧组成，记录在无约束的现实世界设置中。视频环境、参与者数量和行动不同。这个数据集可以用来研究无约束设置中的手部分割。（Aisha Urooj，A。Borji）
FORTH手部跟踪库（FORTH）
一般手：一般手部检测和姿势挑战- 有不同手势、活动和观点的22个序列(加州大学欧文分校)
掌握UNderstanding（GUN-71）数据集- 12000个对象操纵场景的第一人称象操纵场景的第一人称注释RGB-D图像。（Rogez，Supancic和Ramanan）
手势和海洋剪影（Euripides GM Petrakis）
HandNet：手部姿势RealSense RGBD传感器捕获的手的铰接指针214971注释深度图像注释深度图像。注释:每个像素类，6D指尖姿势，热图。火车:202198，测试:1000，验证:2773。Technion的GIP Lab。
HandOverFace数据集- 手部分割数据集由来自网络的300个带注释的框架组成，用于研究手部遮挡面。（Aisha Urooj，A。Borji）
IDIAP手势/手势数据集（Sebastien Marcel）
Kinect和Leap运动手势识别数据集- 包括使用的数据集Leap Motion和Kinect获得1400种不同手势的设备（Giulio Marin，Fabio Dominio，Pietro Zanuttigh）
Kinect和Leap运动手势识别数据集- 包括使用的数据集Creative Senz3D相机采集的几种不同的静态手势。（A.Moono，L。Minto，P。Zanuttigh）
LISA CVRR-HANDS 3D- 8名受试者作为汽车司机和乘客做了19次手势（Ohn-Bar和Trivedi）
用于评估3D关节手部运动跟踪的MPI Dexter 1数据集 - Dexter 1：7个具有挑战性，慢速和快速手部运动的序列，RGB +深度（Sridhar，Oulasvirta，Theobalt）
MSR实时和强大的手部深度跟踪 - （Qian，Sun，Wei，Tang，Sun）
移动和网络摄像头手部图像数据库 - MOHI和WEHI - 200人，每个30张图像（Ahmad Hassanat）
NTU-Microsoft Kinect HandGesture数据集 - 这是手势的RGB-D数据集，10个主题x 10个手势x 10个变体。（周仁，袁俊松，孟晶晶，张正友）
NUIG_Palm1 - 使用消费者设备进行掌纹识别实验，在无约束条件下获取的掌纹图像数据库。（Adrian-Stefan Ungureanu）
NYU Hand Pose Dataset - 8252测试集和72757个训练集帧捕获的RGBD数据，具有真实的手势，3个视图（Tompson，Stein，Lecun，Perlin）
PRAXIS手势数据集 - 来自29个手势的RGB-D上身数据，64名志愿者，多次重复，许多志愿者有一些认知障碍（Farhood Negin，INRIA）
渲染手柄数据集 - 用于2D / 3D手势估计的合成数据集，具有RGB，深度，分割掩模和每手21个关键点（Christian Zimmermann和Thomas Brox）
Sahand动态手势数据库 - 该数据库包含11个动态手势，旨在向计算机传达鼠标和触摸屏的功能。（Behnam Maleki，Hossein Ebrahimnezhad）
谢菲尔德手势数据库 - 2160 RGBD手势序列，6个科目，10个手势，3个姿势，3个背景，2个照明（凌少）
UT Grasp数据集 - 4个主题掌握各种各样的掌握（Cai，Kitani，Sato）
耶鲁人类掌握数据集 - 27个小时的视频，带有来自两个管家和两个机械师（Bullock，Feix，Dollar）的标记抓取，对象和任务数据

十三、图像，视频和形状数据库检索

2D到3D可变形草图 - 可变形2D轮廓的集合，与同一类的可变形3D网格在点对应中; 提供了大约10个对象类，包括人类和动物。（拉纳，罗多拉）
杂波中的3D可变形对象 - 用于3D可变形物体杂波的数据集，具有跨越数百个场景并跨越多个类别（人类，动物）的逐点地面真实对应。（Cosmo，Rodola，Masci，Torsello，Bronstein）
ANN_SIFT1M - 由128D SIFT描述符编码的1M Flickr图像（Jegou等）
布朗大学25/99/216形状数据库（Ben Kimia）
CIFAR-10 - 来自10个类的60K 32x32图像，带有512D GIST描述符（Alex Krizhevsky）
CLEF-IP 2011专利图像评估
DeepFashion - 大型时装数据库（刘紫薇，罗平，石秋，王小刚，王小鸥）
EMODB - picsearch图像搜索引擎中图像的缩略图以及picsearch情感关键字（Reiner Lenz等）
ETU10 Silhouette数据集 - 数据集包含720个10个对象的轮廓，每个对象有72个视图。（M.Akimaliev和MF Demirci）
2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）
Fashion-MNIST - 类似MNIST的时尚产品数据库。（韩晓，Zalando Research）
鱼形数据库 - 它是一个鱼形数据库，具有100个2D点集形状。（阿德里安·彼得）
Flickr 30K - 图像，动作和字幕（Peter Young等）
Flickr15k - 基于草图的图像检索（SBIR）基准 - 包含33个对象类别的330个草图和15,024张照片的数据集，常用于评估基于草图的图像检索（SBIR）算法的基准数据集。（Hu和Collomosse，CVIU 2013）
动手动作（HIC）IJCV数据集 - 使用/ o 1对象跟踪1手或2手的数据（图像，模型，动作）。包括*单视图RGB-D序列（1个主题，> 18个带注释的序列，4个对象，完整的RGB图像）和*多视图RGB序列（1个主题，HD，8个视图，8个序列 - 1个带注释，2个对象）。（Dimitrios Tzionas，Luca Ballan，Abhilash Srikantha，Pablo Aponte，Marc Pollefeys，Juergen Gall）
IAPR TC-12图像基准（Michael Grubinger）
IAPR-TC12分段和注释图像基准（SAIAPR TC-12）:( Hugo Jair Escalante）
ImageCLEF 2010概念检测和注释任务（Stefanie Nowak）
ImageCLEF 2011概念检测和注释任务 - Flickr照片中的多标签分类挑战
METU商标数据集 METU数据集由属于全球公司的900多个真实徽标组成。（Usta Bilgi Sistemleri AS和Grup Ofis Marka专利AS）
McGill 3D Shape Benchmark（Siddiqi，Zhang，Macrini，Shokoufandeh，Bouix，Dickinson）
MPI MANO和SMPL + H数据集 - 统计模型MANO（仅手动）和SMPL + H（身体+指针）的模型，4D扫描和注册。对于MANO，有31个受试者进行~2k静态3D扫描，最多可进行51次姿势。对于SMPL + H，我们包括11个受试者的39个4D序列。（Javier Romero，Dimitrios Tzionas和Michael J Black）
多视图立体评估 - 每个数据集都注册了一个通过激光扫描过程获得的“地面实况”3D模型（Steve Seitz等人）
NIST SHREC - 2014年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）
NIST SHREC - 2013年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）
NIST SHREC 2010 - 非刚性3D模型的形状检索竞赛（美国国家标准与技术研究院）
NIST TREC视频检索评估数据库（美国国家标准与技术研究院）
NUS-WIDE - 带有81个概念标签的269K Flickr图像，包含为500D BoVW描述符（Chau等）
普林斯顿形状基准（普林斯顿形状检索和分析组）
PairedFrames - 评估3D姿势跟踪误差 - 合成和真实数据集，用于测试3D姿态跟踪/细化，姿势初始化接近/远离/来自最小值。建立难度越来越大的测试帧对，分别测量姿态估计误差，而不采用完整的跟踪流水线。（Dimitrios Tzionas，Juergen Gall）
昆士兰跨媒体数据集 - 用于“跨媒体”检索的数百万图像和文本文档（Yi Yang）
从RGB-D视频重建铰接式装配模型（RecArt-D） - 在操纵过程中变形的物体的数据集。包括4个RGB-D序列（RGB图像完整），每个对象的可变形跟踪结果，以及每个对象的3D网格和Ground-Truth 3D骨架。（Dimitrios Tzionas，Juergen Gall）
从手对象交互重建（R-HOI） - 一只手与未知对象交互的数据集。包括4个RGB-D序列，总共4个对象，RGB图像完整。包括对象的跟踪3D运动和Ground-Truth网格。（Dimitrios Tzionas，Juergen Gall）
重访牛津和巴黎（RevisitOP） - 着名的地标/建筑物检索数据集的改进且更具挑战性的版本（固定错误，新注释和评估协议，新查询图像）以及1M牵引器图像。（F. Radenovic，A。Iscen，G。Tolias，Y。Avrithis，O。Chum）
SHREC'16可变形部分形状匹配 - 大约400个3D可变形形状的集合，经历强烈的偏态变换，包括点对点地面真实对应。（Cosmo，Rodola，Bronstein，Torsello）
SHREC 2016 - 基于3D草图的3D形状检索 - 使用手绘3D草图查询数据集在通用3D模型数据集上评估不同基于3D草图的3D模型检索算法的性能的数据（Bo Li）
SHREC'17可变形部分形状检索 - 大约4000个可变形3D形状的集合，经历严重的偏态变换，形式为不规则缺失部分和距离数据; 提供了真实课程信息。（拉纳，罗多拉）
SHREC防水模型轨道（SHREC 2007） - 400个防水3D模型（Daniela Giorgi）
SHREC部分模型轨道（SHREC 2007） - 400个防水3D DB模型和30个减少的防水查询模型（Daniela Giorgi）
SBU Captions Dataset - 从Flickr（Ordonez，Kulkarni和Berg）收集的100万张图像的图像标题
草绘我的鞋子 - 在细粒度的设置中基于草图的对象检索。将草图与特定的鞋子和椅子相匹配。（Qian Yu，QMUL，T。Hospedales Edinburgh / QMUL）。
TOSCA 3D形状数据库（Bronstein，Bronstein，Kimmel）
完全看起来 - 评估预测基于人类的图像相似性的基准（Amir Rosenfeld，Markus D. Solbach，John Tsotsos）
UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）
YouTube-8M数据集 - 用于视频理解研究的大型多样化标签视频数据集。（谷歌公司）

十四、对象数据库

各种物体和场景的2.5D / 3D数据集（Ajmal Mian）
3D对象识别立体数据集此数据集由9个对象和80个测试图像组成。（Akash Kushal和Jean Ponce）
3D摄影数据集我们实验室捕获的十个多视图数据集（Yasutaka Furukawa和Jean Ponce）
3D打印RGB-D对象数据集 - 带有groundtruth CAD模型和摄像机轨迹的5个对象，使用各种质量的RGB-D传感器记录（Siemens＆TUM）
3DNet数据集 - 3DNet数据集是用于对象类识别和点云数据的6DOF姿态估计的免费资源。（John Folkesson等人）
对齐各种对象的2.5D / 3D数据集 - 从单个深度视图进行对象重建的合成和真实数据集。（Bo Yang，Stefano Rosa，Andrew Markham，Niki Trigoni，Hongkai Wen）
阿姆斯特丹物体图像库（ALOI）：1K物体的100K视图（阿姆斯特丹大学/智能感官信息系统）
具有属性2 - 37322（自由许可）的动物50个动物类的图像，具有85个每类二进制属性。（Christoph H. Lampert，IST奥地利）
ASU Office-Home数据集 - 用于域适应的日常对象的对象识别数据集（Venkateswara，Eusebio，Chakraborty，Panchanathan）
B3DO：伯克利三维物体数据集 - 家庭物体检测（Janoch等）
Bristol Egocentric Object Interactions数据集 - 与同步凝视相关的自我中心对象（Dima Damen）
CORE图像数据集 - 帮助学习更详细的模型，并探索对象识别中的跨类别泛化。（Ali Farhadi，Ian Endres，Derek Hoiem和David A. Forsyth）
CTU颜色和深度图像数据集的传播服装 - 带有注释角落的传播服装的图像。（Wagner，L.，Krejov D.和Smutn V.（布拉格捷克技术大学））
Caltech 101（现256）类别物体识别数据库（李飞飞，Marco Andreeto，Marc'Aurelio Ranzato）
卡塔尼亚鱼类物种识别 - 15种鱼类，约20,000个样本训练图像和其他测试图像（Concetto Spampinato）
COCO-Stuff数据集 - 标有“东西”和“东西”的164K图像（Caesar，Uijlings，Ferrari）
哥伦比亚COIL-100 3D对象多视图（哥伦比亚大学）
更深入，更广泛和更艺术的领域泛化 - 领域泛化任务数据集。（Da Li，QMUL）
密集采样的对象视图：2个对象的2500个视图，例如用于基于视图的识别和建模（Gabriele Peters，Universiteit Dortmund）
爱丁堡厨房用具数据库 - 8种原始和二进制图像的20类厨房用具，培训未来的家庭援助机器人（D. Fullerton，A。Goel，RB Fisher）
EDUB-Obj - 用于对象定位和分割的以自我为中心的数据集。（MarcBolaños和Petia Radeva。）
椭圆查找数据集（Dilip K. Prasad等）
FIN-Benthic - 这是一个用于底栖大型无脊椎动物自动细粒度分类的数据集。共有来自64个类别的15074张图片。每个类别的图像数量从577到7不等。（Jenni Raitoharju，Ekaterina Riabchenko，Iftikhar Ahmad，Alexandros Iosifidis，Moncef Gabbouj，Serkan Kiranyaz，Ville Tirronen，Johanna Arje）
GERMS - 我们用于GERMS数据收集的对象集由136个不同微生物的填充玩具组成。玩具分为7个较小的类别，通过玩具微生物的语义划分形成。将对象划分为较小类别的动机是提供具有不同难度的基准。（Malmir M，Sikka K，Forster D，Movellan JR，Cottrell G.）
GDXray：用于X射线测试和计算机视觉的X射线图像 - GDXray包括五组图像：铸件，焊接*，行李，性质和设置。（智利天主教大学Domingo Mery）
GMU Kitchens Dataset - 来自9个不同厨房的BigBird数据集的11种常见家用产品的实例级注释（George Mason University）
抓住野外 - 自然日常生活对象的以自我为中心的视频数据集。7个厨房中的16个物体。（Benois-Pineau，Larrousse，de Rugy）
GRAZ-02数据库（自行车，汽车，人）（A。Pinz）
GREYC 3D - GREYC 3D彩色网格数据库是一组15个真实物体，具有使用3D彩色激光扫描仪采集的不同颜色，几何形状和纹理。（Anass Nouri，Christophe Charrier，Olivier Lezoray）
GTSDB：德国交通标志检测基准（Ruhr-Universitat Bochum）
ICubWorld - iCubWorld数据集是通过iCub类人机器人的摄像机记录获取的图像集合，同时观察日常物体。（Giulia Pasquale，Carlo Ciliberto，Giorgio Metta，Lorenzo Natale，Francesca Odone和Lorenzo Rosasco。）
工业3D物体检测数据集（MVTec ITODD） - 用于3D物体检测和姿态估计的3500个标记场景中的28个物体的深度和灰度值数据，重点关注工业设置和应用（MVTec Software GmbH，Munich）
Instagram Food Dataset - 一个包含800,000个食物图像和相关元数据的数据库，在6周内发布到Instagram上。支持食物类型识别和社交网络分析。（T. Hospedales。爱丁堡/ QMUL）
Keypoint-5数据集 - 五种家具及其2D关键点标签的数据集（Jiajun Wu，Tianfan Xue，Joseph Lim，Yuandong Tian，Josh Tenenbaum，Antonio Torralba，Bill Freeman）
KTH-3D-TOTAL - RGB-D数据，桌面上的对象带注释。20个书桌，每天3次，超过19天。（John Folkesson等人）
LISA红绿灯数据集 - 在各种照明条件下的6种轻型课程（Jensen，Philipsen，Mogelmose，Moeslund和Trivedi）
LISA交通标志数据集 - 在6610帧（Mogelmose，Trivedi和Moeslund）上有47种美国标志类型和7855个注释的视频
Linkoping 3D物体姿态估算数据库（Fredrik Viksten和Per-Erik Forssen）
Linkoping交通标志数据集 - 20K图像中的3488个交通标志（Larsson和Felsberg）
Longterm Labeled - 此数据集包含来自长期数据集（上面的长期数据集）的观察的子集。（John Folkesson等人）
主要产品检测数据集 - 包含时尚产品及其图像的文本元数据，包含主要产品的边界框（文本引用的边框）。（A. Rubio，L。Yu，E。Simo-Serra和F. Moreno-Noguer）
MCIndoor20000 - 来自三种不同室内物体类别的20,000个数字图像：门，楼梯和医院标志。（Bashiri，LaRose，Peissig和Tafti）
Mexculture142 - 墨西哥文化遗产和眼动追踪凝视（Montoya Obeso，Benois-Pineau，Garcia-Vazquez，Ramirez Acosta）
麻省理工学院CBCL汽车数据（生物和计算学习中心）
麻省理工学院CBCL StreetScenes挑战框架：（Stan Bileschi）
Microsoft COCO - 语境中的常见对象（Tsung-Yi Lin等）
Microsoft Object Class Recognition图像数据库（Antonio Criminisi，Pushmeet Kohli，Tom Minka，Carsten Rother，Toby Sharp，Jamie Shotton，John Winn）
Microsoft显着对象数据库（用边框标注）（刘，孙铮，唐，沉）
移动Labled - 此数据集扩展了长期数据集，在KTH的同一办公环境中有更多位置。（John Folkesson等人）
NABirds数据集 - 在北美常见的400种鸟类的70,000张注释照片（Grant Van Horn）
NEC玩具动物对象识别或分类数据库（Hossein Mobahi）
NORB 50玩具图像数据库（NYU）
NTU-VOI：NTU视频对象实例数据集 - 具有对象实例的帧级边界框注释的视频剪辑，用于评估大型视频中的对象实例搜索和本地化。（Jingjing Meng，et al。）
物体姿态估算数据库 - 该数据库包含16个物体，每个物体沿两个旋转轴以5度角增量采样（F. Viksten等）
物体识别数据库该数据库包含八个物体的建模镜头和包含多个物体的51个杂乱的测试镜头。（Fred Rothganger，Svetlana Lazebnik，Cordelia Schmid和Jean Ponce。）
打开图像数据集V4 15,440,132个盒子，600个类别，30,113,078个图像级别标签，19,794个类别。（法拉利，杜里格，戈麦斯）
开放式博物馆识别挑战（开放式MIC）开放式MIC包含在几个博物馆的10个不同展览空间（绘画，雕塑，珠宝等）中捕获的展品照片以及适应领域和少数学习问题的协议。（P. Koniusz，Y。Tas，H。Zhang，M。Harandi，F。Porikli，R。Zhang）
Osnabrück合成可伸缩立方体数据集 - 从12个不同观点捕获的830000个不同立方体用于ANN训练（Schöning，Behrens，Faion，Kheiri，Heidemann和Krumnack）
普林斯顿模型网 - 127,915个CAD模型，662个对象类别，10个带注释方向的类别（吴，宋，科斯拉，俞，张，唐，萧）
PacMan数据集 - 可抓取的炊具和陶器的RGB和3D合成和真实数据（Jeremy Wyatt）
PACS（Photo Art Cartoon Sketch） - 用于测试域概括的对象类别识别数据集数据集：在一个域中训练对象图像的分类器能够识别另一个域中的对象吗？（Da Li QMUL，T。Hospedales。爱丁堡/ QMUL）
PASCAL 2007 Challange图像数据库（摩托车，汽车，奶牛）（PASCAL Consortium）
PASCAL 2008 Challange图像数据库（PASCAL联盟）
PASCAL 2009 Challange图像数据库（PASCAL联盟）
PASCAL 2010 Challange图像数据库（PASCAL联盟）
PASCAL 2011 Challange图像数据库（PASCAL联盟）
PASCAL 2012 Challange图像数据库类别分类，检测和分割，以及静止图像动作分类（PASCAL Consortium）
PASCAL图像数据库（摩托车，汽车，奶牛）（PASCAL Consortium）
PASCAL零件数据集 - PASCAL VOC，带有对象语义部分的分段注释（Alan Yuille）
PASCAL-Context数据集 - 另外400多个类别的注释（Alan Yuille）
PASCAL 3D /超越PASCAL：野外3D物体检测的基准 - 12类，3000多张图像，每张都带有3D注释（Yu Xiang，Roozbeh Mottaghi，Silvio Savarese）
物理101数据集 - 五种不同场景下101个物体的视频数据集（Jiajun Wu，Joseph Lim，Hongyi Zhang，Josh Tenenbaum，Bill Freeman）
植物幼苗数据集 - 12种杂草种的高分辨率图像。（奥胡斯大学）
雨滴检测 - 使用具有场景上下文隔离的组合形状和显着性描述符改进雨滴检测 - 评估数据集（Breckon，Toby P.，Webster，Dereck D.）
ReferIt数据集（IAPRTC-12和MS-COCO） - 来自IAPRTC-12和MS-COCO数据集（Kazemzadeh，Matten，Ordonez和Berg）的图像中对象的引用表达式
ShapeNet - 55种常见对象类别的3D模型，具有约51K独特的3D模型。此外12K型号超过270个类别。（普林斯顿，斯坦福和TTIC）
SHORT-100数据集 - 在典型购物清单中找到的100类产品。它旨在对用于识别手持对象的算法性能进行基准测试，这些手持对象来自使用手持或可穿戴相机获取的快照或视频。（Jose Rivera-Rubio，Saad Idrees，Anil A. Bharath）
SOR3D - SOR3D数据集包含超过20k个人 - 对象交互实例，14个对象类型和13个对象可供性。（pyridon Thermos）
斯坦福犬数据集 - 斯坦福犬数据集包含来自世界各地的120种犬种的图像。该数据集是使用ImageNet中的图像和注释构建的，用于细粒度图像分类的任务。（Aditya Khosla，Nityananda Jayadevaprakash，Bangpeng Yao，Li Fei-fei，斯坦福大学）
SVHN：Street View House Numbers数据集 - 就像MNIST一样，但是标记数据的数量超过了一个数量级（超过600,000个数字图像），并且来自一个更加困难，未解决的现实世界问题（识别自然场景图像中的数字和数字）。（Netzer，Wang，Coates，Bissacco，Wu，Ng）
瑞典叶数据集 - 这些图像包含15个树类的叶子（Oskar JO S？derkvist）
T-LESS - 用于6D姿势估计无纹理对象的RGB-D数据集。（Tomas Hodan，Pavel Haluza，Stepan Obdrzalek，Jiri Matas，Manolis Lourakis，Xenophon Zabulis）
淘宝商品数据集 - TCD包含800个商品图片（礼服，牛仔裤，T恤，鞋子和帽子），用于从淘宝网站上的商店进行图像显着对象检测。（Keze Wang，Keyang Shi，Liang Lin，Chenglong Li）
Laval 6 DOF对象跟踪数据集 - 具有11个对象的297个RGB-D序列的数据集，用于6个DOF对象跟踪。（Mathieu Garon，Denis Laurendeau，Jean-Francois Lalonde）
ToolArtec点云 - 来自Artec EVA扫描仪的50个厨房工具3D扫描（帘布层）。另请参阅ToolKinect - 使用Kinect 2和ToolWeb进行 13次扫描- 116点合成家用工具云，具有5个任务的质量和可供性基础。（Paulo Abelha）
TUW对象实例识别数据集 - 从各种视点观察到的杂乱室内场景的对象实例及其6DoF姿势的注释，表示为Kinect RGB-D点云（Thomas，A。Aldoma，M。Zillich，M。Vincze）
TUW数据集 - 来自TUW的几个RGB-D地面实况和注释数据集。（John Folkesson等人）
UAH交通标志数据集（阿罗约等）
UIUC汽车图像数据库（UIUC）
UIUC 3D对象类别数据集（S. Savarese和L. Fei-Fei）
VAIS - VAIS同时包含从码头获得的船舶的未注册的热量和可见图像，它是为了促进自主船舶开发而创建的。（Mabel Zhang，Jean Choi，Michael Wolf，Kostas Daniilidis，Christopher Kanan）
Venezia 3D杂波识别与分割（Emanuele Rodola）
视觉属性数据集可视属性注释，用于超过500个对象类（动画和无生命），它们都在ImageNet中表示。每个对象类都使用基于636个属性的分类的视觉属性进行注释（例如，具有毛皮，由金属制成，是圆形的）。
Visual Hull数据设置视觉船体数据集的集合（Svetlana Lazebnik，Yasutaka Furukawa和Jean Ponce）
YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）

十五、人（静态和动态），人体姿势

3D铰接式车身 - 具有旋转和平移的铰接式车身的3D重建。单摄像头，变焦。每个场景都可能有一个铰接的身体移动。包括四种数据集。包括仅使用场景的四个图像的样本重建结果。（Jihun Park教授）
BUFF数据集 - 大约10K扫描衣服的人和下面人的估计身体形状。扫描包含纹理，因此很容易生成合成视频/图像。（Zhang，Pujades，Black和Pons-Moll）
动态Dyna - 超过40K 4D 60fps高分辨率扫描和模型的人非常准确地注册。扫描包含纹理，因此很容易生成合成视频/图像。（Pons-Moll，Romero，Mahmood和Black）
动态浮士德 - 超过40K 4D 60fps高分辨率扫描人员非常准确地注册。扫描包含纹理，因此很容易生成合成视频/图像。（Bogo，Romero，Pons-Moll和Black）
扩展的Chictopia数据集 - 14K图像具有附加处理注释（面部）和SMPL身体模型的Chictopia数据集适合图像。（Lassner，Pons-Moll和Gehler）
电影中标记的帧（FLIC） - 标有人体姿势的20928帧（Sapp，Taskar）
KIDS数据集 - 由30个高分辨率3D形状组成的集合，经历近乎等长和非等长的变形，具有点对点的地面实况以及从左到右的双边对称的基础事实。（Rodola，Rota Bulo，Windheuser，Vestner，Cremers）
Kinect2人体姿势数据集（K2HPD） - Kinect2人体姿势数据集（K2HPD）包括在具有挑战性的情况下具有各种人体姿势的约100K深度图像。（Keze Wang，Liang Lin，Shengfu Zhai，Dengke Dong）
利兹体育姿势数据集 - 2000年构成了大多数体育人士的注释图像（约翰逊，Everingham）
查看Person数据集 - 50,000个图像，带有精心设计的像素注释，带有19个语义人体部分标签和带有16个关键点的2D hposes。（龚，梁，张，沉，林）
通过RGB网络摄像头的人体模型床内姿势数据集 - 这种床内姿势数据集通过东北大学模拟医院室内的常规网络摄像头收集。（Shuangjun Liu和Sarah Ostadabbas，ACLab）
Mannequin IRS床内数据集 - 这种床内姿势数据集通过我们的红外选择（IRS）系统在东北大学的模拟医院室收集。（Shuangjun Liu和Sarah Ostadabbas，ACLab）
MoPoTS-3D - 基于单眼RGB方法的多人3D身体姿势基准，在室内和室外设置中有20个序列（MPI For Informatics）
MPI-INF-3DHP - 单人3D身体姿势数据集和评估基准，在广泛的活动范围内具有广泛的姿势覆盖范围，以及广泛的外观增强范围。多视图RGB帧可用于训练集，而单眼视图帧可用于测试集。（信息学MPI）
MPI MANO和SMPL + H数据集 - 统计模型MANO（仅手动）和SMPL + H（身体+指针）的模型，4D扫描和注册。对于MANO，有31个受试者进行~2k静态3D扫描，最多可进行51次姿势。对于SMPL + H，我们包括11个受试者的39个4D序列。（Javier Romero，Dimitrios Tzionas和Michael J Black）
MPII人体姿势数据集 - 25K图像，包含超过40,000人注释的身体关节，410人类活动{Andriluka，Pishchulin，Gehler，Schiele）
MPII人体姿势数据集 - MPII人体姿势数据集是用于评估关节人体姿势估计的事实上的标准基准。（Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，Bernt Schiele）
MuCo-3DHP - 从MPI-INF-3DHP数据集（MPI for Informatics）生成的具有3D姿势注释的合成多人RGB图像的大规模数据集
相册中的人物 - 社交媒体照片数据集，包含来自Flickr的图像，以及人头及其身份的手动注释。（张宁和Manohar Paluri以及Yaniv Taigman，Rob Fergus和Lubomir Bourdev）
人物快照数据集 - 24个主体在固定摄像机前旋转的单目视频。提供了分割和2D关节位置形式的注释。（Alldieck，Magnor，Xu，Theobalt，Pons-Moll）
个人照片集中的人物识别 - 我们引入了三个更难分割的评估和长期属性注释和每照片时间戳元数据。（哦，Seong Joon和Benenson，Rodrigo和Fritz，Mario和Schiele，Bernt）
指向'04 ICPR工作室头部姿势图像数据库
姿态估计 - 此数据集共有155,530个图像。这些图像是通过4次会议记录CIDIS成员获得的。总共获得10个视频，每个视频持续时间为4分钟。要求参与者携带不同的衣服，以使图像变得多样化。在此之后，视频的帧以每秒5帧的速率分离。所有这些图像都是从顶视图中捕获的。原始图像的分辨率为1280x720像素。（CIDIS）
SHREC'16拓扑KIDS - 由40个高分辨率和低分辨率3D形状组成的集合，除了强大的拓扑伪影，自触点和网格粘合外，还具有近点等长的变形，具有点对点的地面真实性。（拉纳，罗多拉）
SURREAL - 在形状，纹理，视点和姿势方面有很大差异的人们的60,000个合成视频。（Varol，Romero，Martin，Mahmood，Black，Laptev，Schmid）
TNT 15数据集 - 由四个佩戴在四肢的10个惯性传感器（IMU）同步的几个视频序列。（von Marcard，Pons-Moll和Rosenhahn）
UC-3D运动数据库 - 可用的数据类型包括高分辨率运动捕捉，采用Xsens和Microsoft Kinect RGB和深度图像的MVN Suit获得。（葡萄牙科英布拉系统与机器人研究所）
United People（UP）数据集 - 具有关键点和前景分割注释的~8,000个图像以及3D身体模型拟合。（Lassner，Romero，Kiefel，Bogo，Black，Gehler）
VGG人体姿势估计数据集，包括BBC Pose（20个带有重叠手语翻译的视频），扩展BBC姿势（72个额外的培训视频），短BBC姿势（5个带有手语签名者的视频）和ChaLearn Pose（23小时） Kinect数据显示27个人表演20个意大利手势）。（Charles，Everingham，Pfister，Magee，Hogg，Simonyan，Zisserman）
VRLF：视觉唇读可行性 - 用西班牙语录制的24个扬声器的视听语料库（Fernandez-Lopez，Martinez和Sukno）

十六、人员检测和跟踪数据库

3D KINECT性别步行数据库（L. Igual，A。Lapedriza，R。Borr＆agrave; s来自UB，CVC和UOC，西班牙）
AGORASET：人群视频分析数据集（Nicolas Courty等）
CASIA步态数据库（中国科学院）
具有跟踪和行为基础事实的CAVIAR项目视频序列（CAVIAR团队/爱丁堡大学 - EC项目IST-2001-37540）
CMU Panoptic Studio数据集 - 由500多个同步摄像机捕获的多人社交互动数据集，具有3D全身骨架和校准数据。（H. Joo，T。Simon，Y。Sheikh）
CUHK Crowd Dataset - 来自215个拥挤场景的474个视频片段（Shao，Loy和Wang）
CUHK01数据集：人员重新识别数据集，包含3,884个 972名行人图像（Rui Zhao等）
CUHK02数据集：人员重新识别具有五个摄像机视图设置的数据集。（Rui Zhao等）
CUHK03数据集：人员重新识别数据集，包含1,316名行人的13,164张图像（Rui Zhao等）
加州理工学院行人数据集（P. Dollar，C。Wojek，B。Schiele和P. Perona）
戴姆勒行人检测基准 21790图像与56492行人加空场景。（DM Gavrila等）
用于Fusion的数据集（颜色和红外线）在不同环境条件下从并行双摄像头设置捕获的彩色和红外系列图像。（Juan Serrano-Cuerda，Antonio Fernandez-Caballero，Maria T. Lopez）
驾驶员监控视频数据集（RobeSafe + Jesus Nuevo-Chiquero）
DukeMTMC：Duke多目标多镜头跟踪数据集 - 8个摄像头，85分钟，2米镜头，2000人视频（Ergys Ristani，Francesco Solera，Roger S. Zou，Rita Cucchiara，Carlo Tomasi）
爱丁堡头顶摄像机人跟踪数据集（Bob Fisher，Bashia Majecka，Gurkirt Singh，Rowland Sillito）
GVVPerfcapEva - 人体形状和性能捕获数据的存储库，包括全身骨骼，手部跟踪，体形，面部表现，交互（Christian Theobalt）
拥有27个人类属性的HAT数据库（Gaurav Sharma，Frederic Jurie）
Immediacy Dataset - 此数据集专为估计个人关系而设计。（肖楚等人）
INRIA穿着运动基准人体 -基准包含不同的主体，运动，和服装样式，允许定量地测量身体形状估计（金龙羊，让- Sbastien佛朗哥，弗兰克H = E9troy轮车的精度三维运动序列，和Stefanie Wuhrer）
INRIA人数据集（Navneet Dalal）
IU ShareView - IU ShareView数据集由九组同步（两个第一人称）视频组成，共有1,227个像素级地面真实分割图，共2,654个带注释的人物实例。（徐明泽，范晨佑，王雨辰，Michael S. Ryoo，David J. Crandall）
Izmir - 用于人体和汽车检测的全方位和全景图像数据集（带注释）（Yalin Bastanlar）
自动驾驶中的联合注意力（JAAD） - 数据集包括行人和汽车的实例，主要用于自动驾驶环境中的行为研究和检测。（Iuliia Kotseruba，Amir Rasouli和John K. Tsotsos）
JTL Stereo为机器人追踪数据集 - 11个不同的室内和室外场所，用于机器人跟踪人员在具有挑战性的情况下的任务（Chen，Sahdev，Tsotsos）
MAHNOB：MHI-Mimicry数据库 - 一个2人，多摄像头和麦克风数据库，用于研究人与人交互场景中的模仿。（Sun，Lichtenauer，Valstar，Nijholt和Pantic）
麻省理工学院CBCL行人数据（生物和计算学习中心）
MPI DYNA - 动态人体动态模型（Max Planck Tubingen）
MPI FAUST Dataset一个包含300个真实，高分辨率人体扫描的数据集，具有自动计算的地面实况对应关系（Max Planck Tubingen）
MPI JHMDB数据集 - 联合注释的人体运动数据库 - 21个动作，928个剪辑，33183帧（Jhuang，Gall，Zuffi，Schmid和Black）
MPI MOSH标记的运动和形状捕获。MOCAP数据，3D形状网格，3D高分辨率扫描。（Max Planck Tubingen）
MVHAUS-PI - 多视图人类交互识别数据集（Saeid等）
市场 -1501 数据集 - 32,668个带有1,501个身份的边界框，最多6个摄像头（梁正等）
摩德纳和雷焦艾米利亚第一人称头像运动视频（摩德纳大学和雷焦艾米利亚大学）
日常生活的多式联运活动 - 包括视频，音频，生理，睡眠，运动和插头传感器。（Alexia Briasouli）
多目标跟踪基准 - 具有基本事实的数据集的集合，以及性能排行表（ETHZ，U。Adelaide，TU Darmstadt）
多光谱可见近红外视频序列 - 带注释的多光谱视频，可见+近红外（LE2I，Universit de Bourgogne）
纽约大学多目标跟踪基准（Konrad Schindler等）
封闭的关节人体数据集 - 遮挡下的身体姿势提取和跟踪，总共有3个RGB-D序列（3500帧），具有一个，两个和三个用户，基于标记的地面实况数据。（Markos Sigalas，Maria Pateraki，Panos Trahanias）
OxUva - 一个大型长期跟踪数据集，由总共约14小时的366个长视频组成，具有单独的开发（公共注释）和测试集（隐藏注释），具有目标对象消失和连续属性。（Jack Valmadre，Luca Bertinetto，Joao F. Henriques，Ran Tao，Andrea Vedaldi，Arnold Smeulders，Philip Torr，Efstratios Gavves）
OU-ISIR步态数据库 - 六个基于视频的步态数据集，两个基于惯性传感器的步态数据集，以及一个步态相关的生物识别分数数据集。（Yasushi Makihara）
PARSE数据集附加数据 - 面部表情，注视方向和性别（Antol，Zitnick，Parikh）
PARSE数据集的铰接体 - 300张人类和马匹图像（Ramanan）
PathTrack数据集：大型MOT数据集 - PathTrack是720个序列中超过15,000个人轨迹的大规模多目标跟踪数据集。（Santiago Manen，Michael Gygli，戴登新，Luc Van Gool）
PDbm：人员检测基准库 - 现实序列，手动注释人检测基础事实和完整的评估框架（Garc ?? a-Mart ?? n，Mart ?? nez，Besc ?? s）
PDds：人员检测数据集 - 几个不同复杂程度的注释监控序列（Garc ?? a-Mart ?? n，Mart ?? nez，Besc ?? s）
PETS 2009 Crowd Challange数据集（Reading University和James Ferryman）
PETS Winter 2009研讨会数据（Reading University＆James Ferryman）
PETS：2015年跟踪和监督绩效评估（Reading University＆James Ferryman）
PETS：2015年跟踪和监督绩效评估（Reading University＆Luis Patino）
PETS 2016数据集 - 多摄像机（包括热像仪）在静止车辆和船周围的人类行为视频记录（Thomas Cane）
PIROPO - 带有透视和全向摄像头的室内人群，拥有超过100,000个带注释的框架（GTI-UPM，西班牙）
人物艺术 - 一个包含照片和艺术品标签的数据库（齐武和蔡洪平）
Photo-Art-50 - 一个包含照片和艺术品的50个对象类的数据库（Qi Wu和Hongping Cai）
基于像素的变化检测基准数据集（Goyette等）
岌岌可危的数据集 - 不寻常的人物检测数据集（黄）
RAiD - 室内 - 室外数据集重新识别：43人，4台摄像机，6920张图像（Abir Das等）
RPIfield - 包含带有时间戳的4108个人图像的人员重新识别数据集。（孟铮，Srikrishna Karanam，Richard J. Radke）
新加坡海事数据集 - 可见范围视频和红外视频。（Dilip K. Prasad）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
Shinpuhkan 2014 - 人物重新识别数据集，包含由16个摄像机捕获的24个人的22,000张图像。（Yasutomo Kawanishi等人）
斯坦福结构化组发现数据集 - 发现图像中的人群（W. Choi等）
TrackingNet - 用于在野外跟踪的大规模数据集：超过30k个用于训练的注释序列，500多个用于测试的评估序列，评估服务器和用于公平排名的排行榜。（Matthias Muller，Adel Bibi，Silvio Giancola，Salman Al-Subaihi和Bernard Ghanem）
瞬态生物识别指甲数据集V01（Igor Barros Barbosa）
Temple Color 128 - 颜色跟踪基准 - 编码视觉跟踪的颜色信息（P. Liang，E。Blasch，H。Ling）
来自音频，图像和深度（GAID）数据库的TUM Gait - 包含305个主题的跟踪RGB视频，跟踪深度视频和音频（Babaee，Hofmann，Geiger，Bachmann，Schuller，Rigoll）
TVPR（顶视图人员重新识别）数据集 - 在顶视图配置中使用RGB-D摄像机进行人员重新识别：室内23次，100人，8天（Liciotti，Paolanti，Frontoni，Mancini和Zingaretti）
加州大学洛杉矶分校空中事件数据集 - 航空视频中的人类活动，包括人物，物体，社会团体，活动和角色的注释（Shu，Xie，Rothrock，Todorovic和Zhu）
佛罗里达中部大学 - 人群数据集（Saad Ali）
佛罗里达中部大学 - 人群流分段数据集（Saad Ali）
VIPeR：观点不变行人识别 - 在不同光照条件下从任意视点拍摄的632个行人图像对。（Gray，Brennan和Tao）
视觉对象跟踪挑战数据集 - VOT数据集是在单目标短期视觉对象跟踪挑战中使用的完全注释的可视对象跟踪数据集的集合。（VOT委员会）
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，有13789个图像属于30个场景类别，57524个人类边界框，每个用14个二进制属性注释。（Li，Yining和Huang，Chen和Loy，Chen Change and唐小鸥）
WUds：轮椅使用者数据集 - 轮椅使用者检测数据，扩展人员检测，提供更通用的解决方案，以检测独立和辅助生活，医院，医疗中心和高级住宅等环境中的人（Mart ?? n-Nieto，Garc？？a-Mart ?? n，Mart ?? nez）
YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）

十七、遥感

用于屋顶分割的空中图像（AIRS） - 457平方公里的正射校正航空影像覆盖范围，超过220,000个建筑物用于屋顶分割。（王磊，陈琦）
巴西Cerrado-Savanna场景数据集 - 由RapidEye传感器拍摄的IR-RG场景的组成，用于巴西Cerrado-Savanna的植被分类。（K. Nogueira，JA dos Santos，T。Fornazari，TS Freire，LP Morellato，R。da S. Torres）
巴西咖啡场景数据集 - 由SPOT传感器拍摄的IR-RG场景的组成，用于识别巴西山区的咖啡作物。（OAB Penatti，K。Nogueira，JA dos Santos。）
建筑物检测基准 -14从IKONOS（1米）和QuickBird（60厘米）（Ali Ozgun Ok和Caglar Senaras）获得的图像
CBERS-2B，Landsat 5 TM，Geoeye，Ikonos-2 MS和ALOS-PALSAR - 使用光学图像进行土地覆盖分类（D.Osaku等人）
数据融合竞赛2015（Zeebruges） - 该数据集在Zeebruges市（比利时）的港口上提供RGB天线数据集（5cm）和激光雷达点云（65pts / m2）。它还提供了一个源自点云的DSM和七个10000 x 10000像素图块中五个的语义分割基础事实。评估服务器用于评估其他两个磁贴上的结果。（图像分析和数据融合技术委员会，IEEE地球科学，遥感学会）
2017年数据融合竞赛 - 该数据集为全球九个城市提供卫星（Landsat，Sentinel 2）和矢量GIS层（例如建筑物和道路足迹）。任务是根据不同分辨率和特征类型的数据，预测在100米预测网格中对气候模型有用的土地利用类别。5个城市带有标签，其他4个城市被隐藏起来，用于评估服务器上的评分。（图像分析和数据融合技术委员会，IEEE地球科学，遥感学会）
deepGlobe挑战 - 该数据集包括三个挑战，道路提取，建筑物检测和土地覆盖的语义分割。提供了来自Digital Globe（RGB，50 cm分辨率）的一系列卫星图像以及全球多个国家/地区的标签。结果在2018年CVPR的DeepGlobe研讨会上公布。（Facebook，Digital Globe）
DeepGlobe卫星图像了解挑战 - 卫星图像上三个深度学习任务的数据集和评估平台：道路提取，建筑物检测和土地类型分类。（Demir，Ilke和Koperski，Krzysztof和Lindenbaum，David和Pang，Guan和Huang，Jing和Basu，Saikat和Hughes，Forest和Tuia，Devis和Raskar，Ramesh）
FORTH多光谱成像（MSI）数据集 - 用于多光谱成像（MSI）的5个数据集，附有地面实况数据（Polykarpos Karamaoynas）
Furnas和Tiete - 沉积物产量分类（Pisani等）
ISPRS 2D语义标记 - 在德国波茨坦市（Franz Rottensteiner，Gunho Sohn，Markus Gerke，Jan D. Wegner）准备了地面采样距离为5cm的高度模型和真正的正射影像。
ISPRS 3D语义标记 - 九级机载激光扫描数据（Franz Rottensteiner，Gunho Sohn，Markus Gerke，Jan D. Wegner）
Inria航空影像标签数据集 - 美国和奥地利城市的9000平方公里彩色航空影像。（Emmanuel Maggiori，Yuliya Tarabalka，Guillaume Charpiat，Pierre Alliez。）
兰伯特的频谱图分析 - 从时间序列数据得到的无源声纳频谱图像，这些频谱图是从水下海洋记录中螺旋桨和发动机机械辐射的声能记录产生的。（托马斯兰伯特）
Linkoping Thermal InfraRed数据集 - LTIR数据集是用于评估短期单目标（STSO）跟踪的热红外数据集（林雪平大学）
MASATI：MAritime SATellite图像数据集 - MASATI是一个由光学航空图像组成的数据集，其中6212个样本是从Microsoft Bing Maps获得的。它们被标记并分为7类海洋场景：陆地，海岸，海洋，海岸船舶，海船，海洋与多船，海船详细。（阿利坎特大学）
MUUFL格尔夫波特高光谱和激光雷达数据集 - 在南密西西比海湾公园校园内共同登记的航空高光谱和激光雷达数据包含几个亚像素目标。（Gader，Zare，Close，Aitken，Tuell）
NWPU-RESISC45 - 用于遥感图像场景分类的大型基准数据集，包含由45个场景类别覆盖的31500个图像。（龚成，韩俊伟，陆小强）
RIT-18 - 用于语义分割的高分辨率多光谱数据集。（Ronald Kemker，Carl Salvaggio，Christopher Kanan）
语义无人机数据集 - 从地面5至30米处获得最低点（鸟瞰）视图的20个房屋。400x公共和200个私人高分辨率图像6000x4000px（24Mpx）。
UC Merced Land使用数据集 21级土地利用图像数据集，每类100幅图像，主要是城市，256x256分辨率，1英尺像素（Yang和Newsam）
UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）
苏黎世夏季数据集 - t用于城市场景的高分辨率卫星图像的语义分割，具有不完整的基本事实（Michele Volpi和Vitto Ferrari。）
苏黎世城市微型飞行器数据集 - 苏黎世2公里的时间同步航空高分辨率图像，以及相关的其他数据（Majdik，Till，Scaramuzza）

十八、机器人

爱丁堡厨房用具数据库 - 8种原始和二进制图像的20类厨房用具，培训未来的家庭援助机器人（D. Fullerton，A。Goel，RB Fisher）
通过低成本全方位机器人改进的高性能结构3D稀疏映射 - 评估数据集 - 研究论文中使用的数据集：10.1109 / ICIP.2015.7351744（Breckon，Toby P.，Cavestany，Pedro）
用于移动机器人本地化的室内场所识别数据集 - 该数据集包含由2个不同机器人（virtualMe和先驱者）构建的17个不同位置（Raghavender Sahdev，John K. Tsotsos。）
JTL Stereo为机器人追踪数据集 - 11个不同的室内和室外场所，用于机器人跟踪人员在具有挑战性的情况下的任务（Chen，Sahdev，Tsotsos）
元房间 - RGB-D数据由28个对齐的深度相机图像组成，通过让机器人到达特定的地方并使用各种倾斜进行360度平移来收集。（John Folkesson等人）
PanoNavi数据集 - 用于机器人导航的全景数据集，由5个视频组成，持续约1小时。（凌燕然）
机器人3D扫描库 - 来自场景机器人实验的3D点云（Osnabruck和Jacobs大学）
使用迭代方法解决机器人 - 世界手眼校准问题 - 生成这些数据集用于校准机器人 - 摄像机系统。（艾米塔布）
事件相机数据集 - 这是世界上第一个带有基于事件的高速机器人相机数据集的集合（E. Mueggler，H。Rebecq，G。Gallego，T。Delbruck，D。Scaramuzza）
ViDRILO - ViDRILO是一个数据集，包含5个带注释的RGB-D图像序列，这些图像是在具有挑战性的光照条件下在两座办公楼中用移动机器人获取的。（Miguel Cazorla，J。Martinez-Gomez，M。Cazorla，I。Garcia-Varea和V莫雷尔。）
Witham Wharf - 林肯大学每隔10分钟由机器人收集八个地点的RGB-D。（John Folkesson等人）

十九、场景或场所，场景分割或分类

巴塞罗那 - 15,150张图片，巴塞罗那（Tighe和Lazebnik）的城市景观
跨模式地标识别基准 - 在不同天气条件下采取的Dandmark识别基准，包括在几种天气条件下拍摄的17幅地标图像，例如晴天，阴天，雪和日落。（延世大学）
CMU可视化本地化数据集 - 使用配备有IMU，GPS，INS，激光雷达和摄像机的Navlab 11在一年内收集的数据集。（Hernan Badino，Daniel Huber和Takeo Kanade）
冷（舒适的本地化数据库） - 放置本地化（Ullah，Pronobis，Caputo，Luo和Jensfelt）
DAVIS：2016年视频对象分割数据集 - 视频对象分割的基准数据集和评估方法（F. Perazzi，J。Pont-Tuset，B。McWilliams，L。Van Gool，M。Gross和A. Sorkine-Hornung）
DAVIS：视频对象分割数据集2017 - 2017年DAVIS视频对象分割挑战（J. Pont-Tuset，F。Perazzi，S。Caelles，P。Arbelaez，A。Sorkine-Hornung和L. Van Gool）
EDUB-Seg - 用于事件分割的以自我为中心的数据集。（Mariella Dimiccoli，MarcBolaños，Estefania Talavera，Maedeh Aghaei，Stavri G. Nikolov和Petia Radeva。）
2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）
Fieldsafe - 农业中障碍物检测的多模态数据集。（奥胡斯大学）
十五个场景类别 - 十五个自然场景类别的数据集。（李飞飞和奥德奥利瓦）
FIGRIM（细粒度图像可记忆性数据集） - 来自SUN数据库的图像子集，用于人类记忆实验，并提供记忆性分数。（Bylinskii，Isola，Bainbridge，Torralba，Oliva）
几何上下文 - 场景解释图像（Derek Hoiem）
HyKo：用于场景理解的光谱数据集 - 使用紧凑，低成本的快照马赛克（SSM）成像相机拍摄HyKo数据集，该相机能够捕获从移动车辆记录的一次拍摄中的整个光谱立方体，从而实现高光谱场景分析用于道路场景的理解。（科布伦茨 - 兰道大学Active Vision Group）
用于移动机器人本地化的室内场所识别数据集 - 该数据集包含由2个不同机器人（virtualMe和先驱者）构建的17个不同位置（Raghavender Sahdev，John K. Tsotsos。）
室内场景识别 - 67个室内类别，15620个图像（Quattoni和Torralba）
野外的内在图像（IIW） - 野外的内在图像，是用于评估室内场景的内在图像分解的大型公共数据集（Sean Bell，Kavita Bala，Noah Snavely）
LM + SUN - 45,676张图片，主要是城市或人类相关的场景（Tighe和Lazebnik）
可见光和红外光谱中的海事图像 - VAIS同时包含从码头（Zhang，Choi，Daniilidis，Wolf和Kanan）获得的船舶的未注册热图像和可见图像
MASATI：MAritime SATellite图像数据集 - MASATI是一个由光学航空图像组成的数据集，其中6212个样本是从Microsoft Bing Maps获得的。它们被标记并分为7类海洋场景：陆地，海岸，海洋，海岸船舶，海船，海洋与多船，海船详细。（阿利坎特大学）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces之上，但包含数百万个材质标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
MIT内在图像 - 20个物体（Roger Grosse，Micah K. Johnson，Edward H. Adelson和William T. Freeman）
NYU V2混合曼哈顿框架数据集 - 我们在Silberman等人的完整纽约深度数据集V2上提供曼哈顿框架（MMF）分割和MF旋转的混合。（Straub，Julian和Rosman，Guy和Freifeld，Oren和Leonard，John J.和Fisher III，John W.）
OpenSurfaces - OpenSurfaces包含数万个从内部消费者照片中分割出来的表面示例，并使用材料参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
牛津视听分段数据集 - 牛津视听分段数据集与牛津视听分段数据集，包括被击中物体的录音（Arnab，Sapienza，Golodetz，Miksik和Torr）
Thermal Road Dataset - 我们的热路数据集提供了大约6000个在道路场景中捕获的热红外图像，并带有手动注释的地面实况。（3500：一般道路，1500：复杂道路，1000：越野道路）。（Jae Shin Yoon）
场景2场景识别数据库 -365场景类别和800万图像（周，Khosla，Lapedriza，Torralba和Oliva）
场景识别数据库 - 205个场景类别和250万个图像（Zhou，Lapedriza，Xiao，Torralba和Oliva）
RGB-NIR场景数据集 - 以RGB和近红外（NIR）（棕色和Susstrunk）捕获的9个类别中的477个图像
RMS2017 - 重建符合语义室外数据集 - 500个语义注释图像，带有来自真实花园的姿势和点云（Tylecek，Sattler）
RMS2018 - 重建符合语义虚拟数据集 - 带有来自6个虚拟花园的姿势和点云的30k语义注释图像（An，Tylecek）
Southampton-York Natural Scenes数据集 90个场景，25个室内和室外场景类别，具有球形LiDAR，HDR强度，立体声强度全景。（Adams，Elder，Graf，Leyland，Lugtigheid，Muryy）
SUN 2012 - 16,873用于场景分类的完全注释的场景图像（Xiao等）
SUN 397 - 397场景分类场景类别（Xiao等）
SUN RGB-D：RGB-D场景理解基准套件 - 10,000个RGB-D图像，146,617个2D多边形和58,657个3D边界框（Song，Lichtenberg和Xiao）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

常用的公共数据集（二）

一般视频

十二、手、手、手和手势数据库

十三、图像，视频和形状数据库检索

十四、对象数据库

十五、人（静态和动态），人体姿势

十六、人员检测和跟踪数据库

十七、遥感

十八、机器人

十九、场景或场所，场景分割或分类

相关文章