锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

综述 | 图像计算传感器

时间:2022-09-13 20:00:00 电子式交流电压传感器自动化口罩机传感器mems传感器里面传感器pr926820112g传感器通用二极管cd1408

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

一引子

65e89d6fd976c16b488f0288d7a31f90.png

在这篇文章的开头,我把老人的照片放在上面。

根据他的遗嘱,他去世时没有葬礼或正式仪式,他的骨灰洒在内华达山脉荒野的一个秘密地方——他只是想静静地离开。

你可能不认识他,但你几乎每天都在使用他创造的技术 —— 他就是图像传感器的开创者,Gene Peter Weckler(吉恩·彼得·韦克勒)。

2019年12月3日,吉恩出生于加州旧金山,在德克萨斯州洛根死于阿尔茨海默氏症并发症, 享年87岁。

吉恩年轻时,他一直对无线电和电子技术感兴趣。1951年19岁时,他加入了美国海军。在军队中,他在电子技术学校学习相关技术。1955年退役后,他加入犹他州立大学继续学习,这所学校在二战期间为军队开设了许多电子技术速成课程。

硅谷半导体产业刚刚开始萌芽的时代。1959年,吉恩加入了著名的肖克利半导体实验室,这个实验室的先驱是著名的William Shockley(威廉.肖克力),肖克利和其他两位科学家John Bardeen、Walter Houser Brattain晶体管共同发明,并于1956年获得诺贝尔奖。

William Shockley、John Bardeen、Walter Houser Brattain

不久前,肖克利的实验室发生了一起著名的八叛徒事件。肖克力确实是一位杰出的科学家,有着丰富的技术远见和强烈的敏锐性——他的名声使他招募了当时最杰出的年轻人。但肖克利身上还具有另外一面:偏执、蔑视下属、傲慢,甚至要求用测谎仪去对待这些员工,总害怕这些员工会暗地里动摇他的地位。这使他很快失去了这些员工的信任和支持, 同一天,8名年轻人向他提交了辞呈,走出了实验室。这八个人是硅谷历史上最著名的八叛徒 ——包括后来Intel罗伯特的创始人.诺伊斯,戈登.摩尔(也是摩尔定律的提出者)。1957年离开肖克利后,他们很快创立了仙童半导体公司(Fairchild Semiconductor)——这是有史以来最伟大的公司,后来有100多家硅谷公司与这家公司分离。我们以后可以单独讲它的故事。

硅谷八叛徒

尽管肖克利如此糟糕,吉恩还是在1959年加入了肖克利的实验室,在那里工作了4年,直到1963年,然后加入了仙童半导体公司。你看,硅谷的许多传奇人物都在这两家公司工作过。

吉恩在仙童半导体公司工作了八年。在此期间,他取得了许多成就,但最重要的成就是他发表的论文Operation of p-n Junction Photodetectors in a Photon Flux Integrating Mode,这是世界上第一篇描述利用描述利用PN结光电二极管的文章也被认为是MOS图像传感器的第一部奠基作品。以下两张图摘自吉恩的论文,描述了单体的反向偏置PN结光电二极管,以及这些光电二极管阵列的方法。基于这种反向偏置PN实用的图像传感器终于出现在结光电二极管中。

二CCD和CMOS,两种传感器对比

在吉恩论文总结中提到

Integrated arrays of storage mode detectors are suitable for application as image detectors. Under this broad classification are such applications as pattern recognition, print or photo readers , image tracking, and real-time surveillance.
存储模式检测器的集成阵列适用于图像检测器。在这个广泛的领域,有模式识别、打印或照片浏览器、图像跟踪和实时监控。

读完这句话,再想想这是一篇1967年的论文,你一定会像我一样感受到吉恩的技术远见。

基于MOS图像传感器没有吉恩描述的那么快出现。相反,20世纪70年代CCD该技术很快成为图像传感器的主流,具有高量子效率、高灵敏度、低暗电流、高一致性、低噪音等特点。下图展示了CCD指示:电荷通过垂直和水平CCD将阵列移出,通过简单的放大器转换成电压,然后串行读取。CCD其结构使其像素具有很高的有效利用面积,因此可以制作小尺寸的像素。而且因为电荷在像素间转移是无源的,所以不会引起噪声。

CCD结构示意

但CCD也有其明显的缺点:CCD采用电荷转移技术,移技术串行,导致读出速度有限。而且,为了维持完美的电荷转移效率,需要高速率、高电压的时钟,因此它的功率也很高。同时,CCD在制造过程中,特别优化了成像和电荷转移,使像素的大小可以在不降低性能的情况下缩小。但在同一芯片上集成传感器和成像的其他功能也很困难。

与CCD对应,是CMOS传感器。虽然吉恩的论文是在20世纪60年代发表的,但我们今天意义上的CMOS传感器实际上来自80年代中叶VLSI视觉有限公司和喷气促进实验室的开始。在这里,电压信号通过随机访问存储器一次一次地读取,如下图所示。其读取路径包括几个同时引入噪声的有源设备。

CMOS结构示意

CMOS图像传感器的随机访问和读取使高速信息读取能够以较低的功耗读取,这使得图像传感器的随机访问和读取能够以较低的功耗读取高速信息CMOS图像传感器非常适合实现超高分辨率和高帧率的成像设备。由于主要采用标准工艺制造,与其他模拟、数字处理和控制电路易于集成,进一步降低了成像系统的功率和尺寸,有潜力实现新功能。

后来,正如你所经历的,CMOS图像传感器已逐渐成为主流。到目前为止,大多数常见的摄影设备已经被使用CMOS传感器,让我们从原理出发,仔细了解图像传感器。

三 CMOS传感器底层读取结构

不管是CCD还是CMOS,其底层核心是吉恩在论文中描述的反向偏置PN如下图所示,结光电二极管。光电二极管首先复位到电压V_D。然后打开复位开关,二极管内部光子在光照下转换为电荷,二极管内部电容CD这个过程叫直接积分。如果是CCD或者是早期CMOS用于传感器PPS(Passive Pixel Sensor: 无源像素传感器)CD读取并转换为电压。而后来的CMOS传感器用传感器APS(Active Pixel Sensor: 有源像素传感器),在读取之前,电荷将直接转换为传感器像素内的电压信号。无论如何,从电荷到电压的转换都是线性的。光线强的时候,光电二极管可能会积分饱和,最大容纳的电量称为满陷容量。

反向偏置PN结光电二极管,直接积分

直到20世纪90年代初,CMOS传感器的底层是我以后介绍的无源像素传感器(Passive Pixel Sensor, PPS). PPS在像素中,光电二极管利用上述原理直接积分积累电荷,当行选择晶体管时,该行的电荷将通过列电子电压放大器读取。读取后,相关光电二极管和放大器将复位,准备读取下一行。

PPS:无源像素传感器

然而,按列读取速度慢,容易受到噪声和干扰的影响。因此,有源像素传感器的应用于90年代初(Active Pixel Sensor:APS)。比较流行的APS包括了3T结构和4T结构是指单个像素内有3个晶体管或4个晶体管,如下图所示。

APS:有源像素传感器

3T结构包括复位晶体管、源极跟随器晶体管和列选择晶体管。读取是一行执行的。每行像素在通过行选择晶体管和列放大器读取到列电容器后被复位。

4T结构采用Pinned型光电二极管,基本3T传输门和浮动扩散增加在像素架构上(FD)节点。积分结束时,光电二极管上的累积电荷转移到FD节点。然后3T同样的构中相同的方法。APS由于添加了额外的晶体管,提高了信号的读取速度和信噪比,很快就变成了CMOS传感器主流技术。

最新的CMOS图像传感器的结构是DPS,其中模数(A/D)转换在每个像素本地执行,数字信号从像素阵列中读取,类似于随机访问数字存储器。如下图所示,它由光电二极管制成,ADC与存储器组成。它降低了对模拟电路性能的要求,消除了列噪声,实现了大规模的并行模数转换和高速数字读取。

DPS示意图

四 卷帘快门效应

CMOS总体结构如下图所示,包括地址生成器、行地址解码器、列扫描和列ADC单元。地址生成器生成行地址,启动像素曝光(即上述积分过程),然后在一定时间后生成行数字信息读取的地址。

你可以从上图看到,CMOS传感器在读出数据时,是一行一行进行的。这样做的好处很明显,整个结构的设计简单,空间利用率高。不像全局快门(Global Shutter)那样需要额外的存储单元来存储像素信息。但它的缺点也是很明显的,那就是所谓的卷帘快门效应,这会导致再拍摄高速运动的物体时,出现倾斜现象,如下图所示。

下面这张图中飞机螺旋桨也因为这种效应变得弯曲了

卷帘快门效应,导致螺旋桨弯曲

五 编码卷帘快门

那么,有没有办法来改善CMOS传感器的结构,从而避免卷帘快门效应呢?这就要提到一种叫做编码卷帘快门(Coded Rolling Shutter)的技术了。前面提到普通CMOS传感器一个在行间公用的公用的列扫描和列ADC单元,因此每一行的读出时刻是不能重叠的。

CMOS每一行的读取周期不能重叠

而编码卷帘快门巧妙的通过改变地址产生的时刻,从而改变每一行的曝光起始时刻和数据读取时刻。这样,再加上后端的计算摄影算法,可以实现很多有趣的功能,包括了高速摄影、去倾斜、像素级HDR等等,而这个设计最妙的地方是仅仅改变地址产生器即可按照通常的CMOS生产工艺设计制造出来。

这里我挑选一部分应用展示给你,我们先来看看高速摄影。有两种读取模式,我们先介绍第一种,如下面动图所示。这里不再是逐行进行读取,而是采用每隔K行交替读取。这样下图中同一种颜色的行可以认为是同一幅子图像,所以一次拍摄可以产生K个子图像。如果读取一行的时间为 △tr,那么对于一个有M行的传感器,整个读取时间为M△tr。对于传统的CMOS,帧和帧之间的时差也就是M△tr。但对于编码卷帘快门,子图像之间的时差就变成了M△tr/K。与此同时,倾斜量也就变成了M△tr/K。

通过这样的设置,一次拍摄就可以拍摄出一个短视频,且里面的每一帧都仅有很小的倾斜:

还有另外一种交替读取的方式更夸张,可以实现超高速摄影,如下图所示。这里你可以看到,倾斜量并没有降低太多,但是帧间时差仅有单行像素的读取时间,一般是15us至40us。

用这个配置,可以捕捉画面中非常短时间内的变化细节,如下图所示,这是传统CMOS传感器无论如何做不到的。

一次拍摄获取多个子图像是一个创举,这样我们还可以通过分析子图像之间的光流,从而实现更多的功能,比如可以去除照片中因为卷帘快门效应导致的倾斜。

两个子图像的光流很容易计算
利用子图像光流估计运动,从而扭正图像

编码卷帘快门还有很多有趣的功能,感兴趣的话你可以到项目官网cs.columbia.edu/CAVE/pr去看一看。

这个项目的作者是华人学者Gu Jinwei (抱歉我没有查到中文名),他2005年从清华大学毕业后就到哥伦比亚大学留学,并于2010年5月获得博士学位。这篇文章Coded Rolling Shutter Photography: Flexible Space-Time Sampling 是2010年3月发表的,应该是他读博士期间的重要成就之一。

Gu先生的个人主页是gujinwei.org/, 看介绍他现在是在商汤的美国研究院工作,看起来还是同行

SenseTime 2018-present: Mobile Photography (SensePhoto) Build and lead a R&D team of 30 people, focusing on a complete product solution named SensePhoto, which is computational photography and computational imaging on mobile phones, including super-resolution, denoising, demosaicing, HDR video, soft ISP, face image enhancement, etc. Our clients include major OEMs including Vivo, Oppo, Xiaomi, and etc. The work is a joint collaboration with major vendors (e.g., Sony, Sunny Optics, and Qualcomm).
专注于手机计算摄影与计算成像的完整产品解决方案SensePhoto,包括超分辨率、去噪、去马赛克、HDR视频、软ISP、人脸图像增强等,客户包括Vivo、Oppo、小米等主要OEM厂商,与主要厂商(如Sony、Sunny Optics、高通等)共同合作。

六 角度敏感像素结构及应用

我们刚刚介绍了传统CMOS传感器的缺点(卷帘快门效应),以及一种利用计算摄影方式解决此问题的高效方法。而包括CMOS传感器在内的所有传统图像传感器还有一个缺点,那就是只能获取2D图像,而现实的世界是要用高维光场来描述的。光场的概念,我在34. 光场--捕获场景中所有的光线中介绍过,我们也看到了一些用于获取光场的技术,例如光场相机、阵列相机等,但这些技术要么牺牲了分辨率,要么复杂度高、体积大。那么有没有可能只通过单独的CMOS传感器就实现光场信息的获取呢?这要从一种特殊的像素结构讲起,它的名称是角度敏感像素结构(Angle Sensitive Pixel Structure, ASPs)

下图可见,这种像素结构最大的特点就是增加了两层光栅,一层叫做衍射光栅,一层叫做分析光栅。通过这个结构,像素值不仅跟入射光光强有关系,跟入射角度也会有关系。而传统的像素的值则是跟平均的入射光强和角度有关。

ASPs提出者是华人Albert Wang在2009年的论文Light field image sensors based on the talbot effect中提出。他希望构建一种图像像素,不仅能够检测入射光强度,也能够获得入射角度

他在论文中提到,一种叫做塔尔博特的效应(Talbot Effect)会导致光栅上的平面波产生周期性衍射图案。

在没有分析光栅的情况下,不同深度的传感器平面上的信号响应也是周期性的衍射图案,入射光方向偏移时,这个衍射图案也会偏移。

如果在这层光栅下面再增加一层分析光栅,那么就可以使得不同的入射角度、不同的光强在光电二极管上产生不同的响应。

实际的CMOS传感器制造工艺使得增加这样的光栅是很容易的事情,我们来看看一个CMOS传感器的扫描电子显微镜照片,这里光线从光圈入射,经过由电介质形成的隧道进入到光电二极管所在的平面,这中间要经过好几层金属层。

因此,只要在此基础上增加两层光栅层,就可以实现我们想要的Talbot效应了:

通过调整光栅层的位置和形态,还可以使得该像素对不同的入射光的方向、相位、频率、强度产生的响应不同,具体来说如下面动图所示:

由单个这样的像素的响应 ,我们无法得到其真实的强度I和入射角、频率、相位等信息,但组合相邻的不同特性的像素却可以很容易求出。其实,这非常类似于我们用利用CFA得到不同颜色的像素,再利用Demosaic技术使得每个像素都有不同的颜色值一样,本质上是一种插值方式。

这样,当我们把这些不同响应相位、频率的像素组合到一起时,就可以形成2维的像素阵列,用于捕获光场ρ

后面Albert和别的学者一起继续在研究这种特殊的像素,2011年他们提出了一种改进方案。一开始Albert设计的像素有两层光栅加上单体的光电二极管构成,但后面经过改进,变成了下面这种更简洁的结构,它由一层相位光栅加上交替的两个光电二极管构成,结构更简单,光效更高。

改进后的ASPs

ASPs是一种很好的像素结构,具有极大的潜力,但Albert和相关研究者并未描述利用这种结构重建光场的通用方法,直到2014年IEEE ICCP的最佳论文出现

下图是几位作者领奖时的合照, 第一作者是中间这位Matt Hirsch。左起第一位则是我们曾经介绍过的Ramesh Raskar , 他提出了我介绍过的Flutter Shutter(见40. 如何消除摄影中的运动模糊?)

作者们构建了由APSs像素阵列组成的图像传感器

作者认为每个像素基于不同的函数来调制入射光,可以用下面的式子直接获取二维图像,获得的图像和一般的传感器没有大的区别。

可以把这个过程抽象为Φ,入射光场抽象为l,那么就有二维图像i = Φl,那么很直接的,我们可以对这个式子求逆,利用最小二乘的方式求出光场信息,由于前面所讲的像素阵列是由多种不同的像素组成而成的,因此实际上求出的光场的分辨率是比较小的。

当从这个光场中再抽出一个子图像观察时,可以看到它相比全尺寸的2D图像要模糊很多。

那么有没有可能获得高分辨率的光场呢?恰好,就在2013年Ramesh Raskar教授所在的MIT Media Lab发表了另外一个研究成果:压缩光场成像,里面提到了一种利用低分辨率的信息重建高分辨率的4D光场的方法。

这篇文章的作者发现光场可以表示为一个超定的字典和稀疏稀疏的乘积。

为了得到这个超定的字典,他们预先构造了大量训练用光场数据,并采用了如下的方法求解获得D

这样,在前述系统中如果要获得光场,只需要求取稀疏系数矩阵α即可,这是通过一种叫做Basis Pursuit Denoise的方法

虽然计算量较大,但是这种方法得到的光场是高分辨率的光场,其中每一个2D投影都是高清图像,如下图所示。

总体说来,Hirsch等人系统的阐述了如何利用ASPs构建一个多功能的图像传感器,既能像普通传感器一样获取高分辨率的2D图像,也能以很高效率获取低分辨率的光场,或是利用更加复杂的算法获取高分辨率的光场 

七 事件相机、TOF、以及模拟CNN传感器

 

事件相机

其实,从像素结构本身着手来构造新的传感器还有很多方法,这里再给你展示一种独特的相机,它的名字叫做“事件相机(Event Camera)”,它的像素核心部件如下,它不像通常的相机是对当前时刻的入射光响应,相反它只对变化起反应。所以它还有一个名字,叫做"动态视觉传感器(Dynamic Vision Sensor)"

这里有一个视频,形象的展示了它和普通相机的区别:

https://www.zhihu.com/zvideo/1257460934869987328

这里还有一张表,你也能看出它和普通相机的区别

有很多人研究如何利用事件相机,这里有一个有趣的技术,由2016年ECCV的最佳论文所阐述

作者展示了如何利用单一的事件相机,实时的进行三维重建。这是第一个被证明能跟踪一般的6D运动的方法,而且不仅能重建点云的空间位置,还包括其强度,甚至还能够利用事件相机重建出灰度视频,这里有视频:https://www.zhihu.com/zvideo/1257461223383646208

TOF相机

还有一个典型的利用新的像素技术的相机是TOF相机,它利用了单光子雪崩二极管来做底层成像单元,我们最熟悉的产品可能就是微软的第二代Kinect了

关于TOF我之后还会专题讲述,这里就先不深入了。

片上处理器

我们前面讲过,CMOS传感器相比CCD的一大优势就是"很容易地与其他模拟和数字处理和控制电路集成"。所以,还有学者提出直接把图像处理器和像素阵列集成在一起,形成强大的计算传感器,下图是示例,其左边部分是传统的传感器,右半部分则集成了图像处理、压缩和存储单元。

这种带片上处理器的传感器,典型的就是南洋理工大学学者陈守顺2011年论文中提出的方案

2016年,学者Robert LiKamWa提出了一种叫做RedEye的传感器,按照其主页描述

The RedEye vision sensor architecture extracts ConvNet features in the analog domain to reduce analog-digital sensor readout overhead. The architecture promotes focal plane scalability by localizing design complexity and promotes energy efficiency by analog noise admission.

RedEye视觉传感器架构在模拟域中提取ConvNet特征,以减少模数传感器读出开销。
该架构通过本地化设计复杂性来提高焦面可扩展性,并通过模拟噪声接纳来提高能效。

RedEye系统的作者身上也留着中国人的血,照片也自带喜感,很让人感觉亲切。他个人介绍特别强调他跟一般华人的单姓不一样,他的姓是LikamWa,他先祖李金華当年居家移民到毛里求斯时,被当地人这样称呼,后来就变成了他们全家的姓。感兴趣的话,你可以到Robert LikamWa的主页roblkw.com/去看看他的故事。 

八 总结

 

从吉恩利用反向偏置PN结发明传感器的基础单元开始,到LiKamWa的传感器上的模拟CNN架构,图像传感器越来越先进,越来越复杂。它们不再是仅仅能感知光信号的设备,而是能够主动进行复杂处理的计算传感器。

在未来,人们会尝试更紧密地结合硬件和软件,结合从编程语言到计算机体系结构,从电路到光学的方方面面来创造新的计算传感器。有可能还会为特定的应用,例如机器视觉、科学成像等目的定制特殊的图像传感器。会有各种新的技术,例如MEMS、光子学、3D堆叠等采用到传感器上。

计算传感器的前景无量。

在图像传感器的演进过程中,既有像吉恩这样的硅谷的先驱,也有很多亚裔、华人的后来者跟上。这说明,华人在传感器芯片这个硬核的领域也是很有创造力和贡献的。

写下这篇文章的时候,美国正在高科技领域的方方面面打压中国,尤其是在半导体领域让我们喘不过气来。我们要看到他们是从上世纪50年代就开始一直不断的发展、创新、追求极致,而且吸引了全世界的人才,包括华人在内的亚裔加入他们的体系作出贡献,才成就了现在的半导体霸权。所以我们要想迅速的摆脱这种限制,确实是很不现实的。但我们也要看到华人的聪明才智,咱们有这个脑力基础 只要不急功近利,不固步自封,不弄虚作假,我们放眼看世界,通过各种渠道来吸收全世界学界、工业界的优秀成果,吸引全世界能够吸引的科技力量,踏踏实实的前进,我们一定能够冲破阻碍,迈向星辰大海!

小白团队出品:零基础精通语义分割↓↓↓

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章