锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

基于高分辨率的单目深度估计网络(AAAI2021)

时间:2022-09-14 05:30:00 hr系列传感器5挤压单连接器

点击上方“3D视觉车间,选择星标

第一时间送达干货

ffe2d2d24df0f03abb11781dcf7f277b.png

作者丨图灵智库

来源丨泡泡机器人SLAM

标题: HR-Depth:High Resolution Self-Supervised Monocular Depth Estimation

作者:Xiaoyang Lyu Liang Liu , Mengmeng Wang , Xin Kong

机构:Zhejiang University , Fuxi AI Lab, NetEase

来源:AAAI2021

编译:Cristin

审核: ZH

摘要

大家好,今天的文章是HR-Depth : High Resolution Self-Supervised Monocular Depth Estimation

以图像序列为唯一的监督源,自监督学习在单目深度估计方面具有巨大的潜力。尽管人们试图使用高分辨率图像进行深度估计,但预测的准确性并没有显著提高。本文发现,核心原因是大梯度区域的深度估计不准确,导致双线插值error随着分辨率的增加而逐渐消失。为了在大梯度区域获得更准确的深度估计,需要获得具有空间和语义信息的高分辨率特征。因此,我们提出了一种改进DepthNet, HR-Depth,它有两种有效的策略:(1)重新设计DepthNet为了获得更好的高分辨率特征,率特征;(2)提出特征集成Squeeze-and-Excitation(fSE)(fSE)具有更有效融合特征的模块。使用Resnet-18作为编码器,HR在高分辨率和低分辨率下,深度以最少的参数超过的参数(SoTA)方法。此外,过去最先进的方法是基于相当复杂和深度的网络,它们有大量的参数,限制了它们的实际应用。因此,我们还建立了一个使用轻量级网络MobileNetV作为编码器。实验表明,在只有20%参数的高分辨率下,可以使用轻量级网络Monodepth与许多大型模型相比,2等。code: https://github.com/shawLyu/HR-Depth.

主要工作和贡献

本工作的主要贡献如下:

?深入分析了高分辨率单目的深度估计,并证明预测更准确的边界可以提高性能。

?为了获得高分辨率的语义特征图,我们重新设计了跳跃连接,可以帮助网络预测更清晰的边缘。

?提出了特征集成-压缩激励块,提高了特征集成的效率和效果。

?我们提出了一个简单有效的轻量级设计策略——训练一个能够实现复杂网络性能的轻量级深度估计网络。

算法流程

1. 高分辨率性能分析

作为密集预测任务的共识,更高的分辨率本能地带来更准确的结果(Sun等人2019;周等,2019)。特别是在深度估计任务中,像素级视差更为重要,因为它与深度误差的平方成反比(You et al. 2019)。然而,我们注意到以前的大部分工作都使用低分辨率输入,并将低分辨率预测插入到高分辨率预测中。低分辨率的实验本质上不能从高分辨率的图像中受益。有些方法还进行大的图像训练模型进行高分辨率实验(Godard等人2019;Pillai等人2019年)。然而,小输入的性能改进非常有限,即(Pillai et al. 2019年他们的模型不能使用高分辨率。例如,我们使用更高的分辨率设置来评估最近的著名工作Monodepth2(Godardet al. 2019)。如表所示1所示,在高分辨率和低分辨率差几乎相同。因此,我们认为他们的方法不能充分利用高输入分辨率信息。

此外,我们还深入分析了现有方法无法提高高分辨率输入深度估计的实际原因。我们发现,从低分辨率预测到高分辨率预测的双线插值,最重要的是不可忽视的误差。具体来说,以Monodepth2(Godard et al.以2019年为例,当输入较小的模型时,为了获得所需的高分辨率模型,需的高分辨率模型。从图2可以看出,对于深度梯度较大的区域,如实例边缘,局部预测误差会严重影响整体精度,而对于深度梯度较小的区域,局部预测误差会严重影响整体精度。有趣的是,当低分辨率输出的预测较差时,如图2所示,它会意外地补偿双线插值的局部预测误差。结果表明,低分辨率图像的性能可以达到高分辨率图像的水平。换句话说,大多数方法不能从更大的输入中受益的实际原因是这两种设置之间的差距被上述有趣的现象所弥补。因此,只有更准确地预测深度梯度较大的区域,才能使高分辨率预测更准确。我们还可以总结出,在大梯度区域和更尖锐的边缘预测更准确的深度可以提高高分辨率的性能。

图2 高分辨率深度估计分析。Abs Rel是深度评价指标,越低越好。HR高分辨率,LR为低分辨率。所有插值结果都是由OpenCV库计算。

2. Redesign Skip Connection

为了预测更准确的边界,我们试图从空间和语义两个方面加强边界,因为我们认为(1)语义信息可以在不同类别之间产生边界,从而减少误差分类引起的深度估计误差;(2)空间信息可以帮助网络知道边界的位置,从而更好地估计边界。在这里,我们将首先讨论深度网络和U-Net架构。

为了减少语义和分辨率之间的差距,我们受到了影响(Zhou et al. 受2018年启发,提出了密集的跳跃连接。如图3所示,除了解码器中的原始编码器和节点外,我们还添加了大量的中间节点来聚合特性。

图3 说明网络框架。该网络主要由三种不同类型的节点组成。X i e节点主要由残余块组成。xi,j表示只有3个特征集成节点 × 三卷积运算。X i d它是我们主要提出的特征集成节点fSE模块组成。视差由disconv解码块包含3 × 3卷积和sigmoid激活函数。

图4 Lite-Network在KITTI数据集上上对距离为80m量化性能。计算矩阵和方法与表2相同。T指使用教师网络引导lite训练网络。

3.Feature Fusion SE Block

基于U-Net的DepthNet采用3 × 3的卷积将上采样的特征图与编码器提供的原始特征图相结合,卷积的参数计算为

就像(Huang et al. 2017年),密集的跳跃连接增加了解码器节点的输入特征图,因此该操作将不可避免地降低网络的效率。受(Huet al. 受2019年的启发,我们提出了一个具有挤压激励特征的轻量级模块(fSE),提高特征融合的精度和效率。fSE通过全局平均池压缩特征图来表示通道信息,并使用两个全连接层(FC)和一个sigmoid在重新加权的同时,函数衡量每个特征的重要性。然后利用1×1卷积融合信道,获得优质特征图。

4.Lite-HR-Depth

我们的Lite-HR-Depth采用了MobileNetV3作为编码器,只缩小了3.1M参数的特征集成和解码器节点,其中2.82M来自编码器的参数。此外,我们通过知识蒸馏进一步提高Lite-HR-Depth的准确性(Hinton等人,2015年)。对于自我监督学习,由于缺乏基本事实,我们必须使用视图综合作为监督信号,这增加了小型网络培训的难度。因此,我们建议从大模型中找到一种直接的监督形式。通过自我监督训练一个大型网络,我们得到了高性能网络的例子T。然后训练轻量级模型的第二个例子,即S,使其最小化

实验结果

表1 在KITTI数据集上上对距离为80m定量结果的深度估计。误差评价指标Abs Rel、Sq Rel、RMSE和RMSE l og精度评价指标越低越好δ < 1.25、δ < 1.25 2、δ < 1.25 3越高越好。在数据集列中,CS K表示在cityscape (CS)预训练和在KITTI(K)微调。M是由单目(M)监督图像序列DepthNet, MS由单目和立体组成(MS)图像监督的DepthNet。在测试时间,我们缩放DepthNet真实激光雷达信息的输出和中值地面。

图5 定性单目深度估计性能比较HR-Depth和Lite-HR-Depth与以前的SOTA。来自KITTI数据集帧Monodepth与2相比,我们的网络可以预测更尖锐的边缘(Godard等人,2019年),其性能可与PackNet-SfM但参数要少得多。

表2 Lite-Network在KITTI数据集上上对距离为80m量化性能。计算矩阵和方法与表2相同。在监督栏中,T指使用教师网络引导lite训练网络。

点击阅读原文, 本文下载链接即可获得。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章