数字图像处理 自学笔记 (武汉大学 贾永红)
时间:2023-07-21 10:37:00
学习目标:
数字图像处理(只总结了自己现有的知识和能力,图片都是网课截图)
学习内容:
mooc课程 数字图像处理 武汉大学 贾永红(第六节课)
第一章-绪论
数字图像处理的概念
? 图像:与客观对象相似、生动的肖像或描述
图像类别:
伽马射线成像 x射线成像 紫外线成像 可见光和红外波段成像 微波成像 无线电波成像 其它成像模式:超声波成像、电子
显微镜法
分类:
- 彩色图像和非彩色图像
- 模拟图像和数字图像
- 模拟图像:函数可以表示空间坐标和亮度
- 数字图像:可以用数组或矩阵表示(值全是整数)
图像处理:对图像进行一系列操作,达到预期目的。
? 模拟图像处理 借助光学设备
? 数字图像处理 借助计算机 (计算机图像处理)
数字图像处理的内容
? 获取、传输、存储、变换、显示、理解和综合利用图像
根据抽象程度分为三个层次:
- 狭义图像处理:图像到图像的处理,处理对象为像素。
- 图像分析:检测和测量图像中的目标,以获得图像描述,处理对象是目标。
- 图像理解:在图像分析的基础上,研究符号属性与符号之间的关系,解释和规划场景。
狭义图像处理
- 图像数字化:数字图像通过模拟图像获得
- 图像变化:简化图像处理问题,有利于特征提取,加强对图像信息的理解 傅里叶变化算法的性质和应用
- 图像增强:主要介绍增强方法和应用
- 图像恢复与重建:退化、模糊图像恢复,包括图像辐射校正和几何校正;图像的二维和三维图像通过断层扫描获得。
- 图像编码:研究图像简化,压缩,便于存储和传输。
图像分析
- 图像分割:图像分析的第一步是将图像分成不重叠的区域,主要介绍方法和应用。
- 二值图像处理和形状分析:介绍二值图像的集合概念、二值图像的各种变形操作和二值图像特征的提取和分析
- 纹理分析:应用纹理图像的概念和特征提取方法。
- 图像识别:对图像中的各个目标进行分类、解译等。
数字图像处理系统:
- 软件:系统管理、图像数据管理、图像处理模块
- 硬件:图像采集、图像显示、图像存储、图像通信、计算机。
-
图像采集装置:图像采集、摄像头、扫描仪(光敏器件和模具/数转换装置)
-
图像显示:软拷贝,硬拷贝。(取决于图像是否保存,例如:投影是软拷贝,打印是硬拷贝)
-
图像存储:各种各样的东西。我觉得没用。
-
图像通讯:把图像传送到远方终端,静止图像通讯,活动图像通讯。
-
主机:
? 微图像处理系统:微机和工作站
? 大型图像处理系统:大型计算机
数字图像处理的特点
- 精度高 再现性好 通用性好,灵活性强
应用数字图像处理
- 应用很广 还有目前的进展和挑战 一些例子
第二章-数字图像获取
图像数字化
- 图像数字化是数字图像处理的物理基础
- 图像数字化:将真实世界图像转化为计算机能处理的数字图像的过程。
- 具体操作:将一对图像分成小区域(像元或像素),用整数表示。 采样和量化 两个过程。像素属性 = (位置,颜色 )
表示数字图像
? 用矩阵描述-f(0,0)右下角f(M,N))
根据图像的灰度等级分为:黑白图像、灰度图像和彩色图像:
- 黑白图像:只有0,1 即 白,黑 (二值图像)
- 灰度图像:0~255,8位。
- 彩色图像: R,G,B由三个通道组成,24位。
图像数字化过程
? 两步:采样、量化
- 采样:将空间上连续分布的图像转换为离散点。
两个参数:采样间隔(满足采样定理)、采样孔径:采样形状和尺寸(与采样方法有关)一般分为圆、方、矩、椭圆;采样方法分为:接缝、无缝、重叠; - 量化:将像素灰度转化为离散整数值的过程.
? 灰度级(G,一般为2的整数幂):数字图像中不同灰度值的数字。G=256级,成为8,bit量(g)。
采样、量化参数与数字图像的关系
- 数字化可分为均匀采样、量化和不均匀采样和量化。图像数字化一般为均匀采样和量化,具体指采样和量化为等间隔。不均匀的采样间距与图像细节的丰富性有关。不均匀的量化间隔与图像层次有关。
- 采样间隔越大,像素越少,空间分辨率低,质量差,数据量小。
- 图像层次越丰富,灰度分辨率越高,质量越好,数据量越大。
图像数字化设备
? 数字化器必须能够将图像分成几个像素并分别给它们地址,测量每个像素的灰度并量化为整数,并将其写入存储设备。
- 组成:采样孔、图像扫描机构、光传感器、量化器、输出存储器。
- 扫描仪的工作原理:感觉没用~~~~
- 扫描仪分类:按扫描对象分类:反射式和透射式;按其组成结构分类:分为手持式、平板式、滚筒式。
图像灰度直方图
? 灰度直方图是反映图像中每个灰度像素频率与灰度像素的关系,以灰度像素为水平坐标,频率为垂直坐标,绘制频率与灰度像素的关系图是灰度图像的直方图。反映了图像灰度分布的状态。
灰度直方图性质:
- 只反映灰度分布情况,不反映像素的位置;
- 一对图像对应唯一的灰度值方图,不同的图像对应同一直方图;
- 一对图像分为多个区域,多个区域的直方图之和是原图像的直方图。
直方图应用:判断图像量化是否合适;确定图像二值化的阈值(直方图具有二峰灰度图像)。
图像处理算法的形式
? 数字图像处理算,是利用数据原理和计算机程序对数字图像进行处理的基础。
- 单幅图像——>单幅图像
- 多幅图像——>单幅图像
- 单(或多)幅图像——>数字或符号等
下面介绍几种基本功能和算法形式:
-
局部处理:输出像素由输入图像对应位置的领域内的像素值确定。例:卷积运算
领域:像素周围的像素构成的集合(范围可以取合适的整数)叫做该像素的领域。
-
点处理:输出像素由输入图像对应位置的像素值确定。
-
大局处理:输出像素由输入图像大范围或全部像素的值确定。
-
迭代处理:反复对图像进行某种运算直至满足给定的条件,从而得到输出图像。
例:细化过程
-
跟踪处理:选择满足适当条件的像素作为起始像素,检查输入图像和已得到的输出结果,求出下一步应该处理的像素,进行规定的处理,然后决定是继续处理下面的像素,还是终止处理。
特点:目标像素依赖于前一个像素的位置和处理条件。 -
窗口处理和模板处理:这两者是仅对画面中特点的部分进行处理的代表。
窗口处理:单独对图像中选定的矩形区域内的像素进行处理。
模板:任意形状的区域。
模板平面:一个和处理图像相同大小的二维数组,用来存储模板信息。一般是一副二值图像。
模板处理:参照模板平面对图像进行某种操作。 -
串行处理和并行处理:
串行处理:后一像素输出结果依赖于前面像素处理的结果,并且只能依次处理各像素而不能同时对各像素进行相同处理的一种处理形式。
特点:处理算法要按一定顺序进行。
并行处理:对图像内各像素同时进行相同形式运算的一种处理形式。
特点:各输出值可以独立进行运算。
图像的数据结构与特征
图像的数据结构和文件结构是指数字图像在计算机中存储的组织方式,是计算机算法应用于图像处理的数据基础。
图像的数据结构
图像像素灰度值的存储方式。常用方式是将图像各像素灰度值用一维或二维数组相应的各元素加以存储。
也有其他存储方式:
-
组合方式:一个字长存放多个像素灰度值。
特点:节省内存,计算量增加,处理程序复杂;使用很少。 -
比特面方式:将所有像素灰度的相同比特位用一个二维数组表示,形成比特面。
特点:能充分利用内存空间,便于进行比特面之间的计算,但对灰度图像处理耗时较多。 -
分层结构:从原始图像开始依次构成像素数愈来愈少的系列图像,使数据表示具有分层性。例:锥形(金字塔)结构。
锥形结构:对于2k×2k个像素形成的图像,依次构成分辨率下降的k+1幅图像的层次集合。
构建方法:从原图像开始,依次产生行列数为原来1/2的图像,将原图像2×2像素的灰度的平均值作为生成图像的像素值。
特点:可以先对低分辨率图像进行处理,然后更具需要对高分辨率图像进行处理,可以提高效率。 -
树结构:对一副二值图像的行,列接连不断地二等分,如果图像中全体像素都具有相同地特征时,这一部分不再分割。
特点:可以把图像用4叉树表示。用于特征提取和信息压缩等。 -
多重图像数据存储:对于彩色图像或多波段图像而言,每个像素包括着多个波段的信息。
存储方式有三种: 1.逐波段存储,分波段处理时采用。 2.逐行存储,逐行扫描记录设备采用。 3.逐像素存储,用于分类。
图像文件格式
按不同的方式进行组织或存储数字图像像素的灰度,就得到不同格式的图像文件。不同格式有不同的扩展名。
常见扩展名有:RAW,BMP,TGA,PCX,GIF,TIFF。
这些格式大致都包含下列特征:
1.描述图像的高度,宽度以及各种物理特征的数据
2.彩色定义
3.描述图像的位图数据体
下面对RAW,BMP格式作详细介绍:
- RAW格式:将像素按行列号顺序存储在文件中。这种文件只含有图像像素数据,不含有信息头,因此读入图像时,需要事先知道图像大小。是最简单的一种图像文件形式。
- BMP格式:由以下四个部分组成:14字节的文件头;40字节的信息头;8字节的颜色定义;位图数据;
- 调色板:实际上是一个数组,每个元素为RGBQUAD结构,占4个字节。有些位图(如真彩色图)没有调色板,信息头后直接是位图数据。
- 位图数据:对于用到调色板的位图,图像数据就是该像素颜色在调色板种的索引值;对于真彩色图,图像数据就是实际的RGB值。
- GIF格式:基于颜色列表,最多支持8位。GIF支持在一副GIF文件中存储多幅彩色图像,并且可以按照一定的顺序和时间间隔将多幅图像依次读入并显示在屏幕上,这样就可以形成一种简单的动画效果。一般由7个数据区组成:头文件;通用调色板;位图数据区;四个扩充区;
- TIFF格式:尤其特有的标识信息,并能进行自定义,是一种开放易于扩展的数据格式,你能支持较大数据量和不同定义方式的影像数据。由三部分组成:文件头;标识信息区;图像数据区。
第三章——图像变换的预备知识(图像傅里叶变换)
图像傅里叶变换是图像变换的一种方式。
图像变换:通过某种变换关系,将空间图像用另一种方式来表达和表示。是对图像的另外一种表达。
图像变换的目的:
- 使图像处理问题的简化
- 有利于图像特征的提取
特征提取(对从影像中提取目标非常重要)的目的是为了对影像进行分析,根据特征从影像中提取目标等有用信息。 - 有助于从概念上增强对图像信息的理解
图像变换通常是一种二维正交变换,一般要求:
- 正交变换必须是可逆的;(空间域<——>变换域)
- 正变换和反变换的算法不能太复杂;(计算量大会失去简化图像处理的意义)
- 正交变换的特点是在变换域中图像能量将集中分布在低频率成分上,边缘,现状信息反映在高频率成分上,有利于图像处理;
正交变换广泛应用于图像增强,图像恢复,特征提取,图像压缩编码,形状分析等。
傅里叶变换:
- 相关概念和性质略
- 傅里叶级数清楚地表明了信号由哪些频率分量组成及其所占地比重,从而有利于对信号进行分析与处理。
- 可以将傅里叶变换比作一个棱镜,棱镜本用于将光分解为不同波长(频率)的光,而傅里叶变换是将函数基于频率分解为不同的成分,借此来分析原函数。
- 假设f(x,y)是一副图像,再原点的傅里叶变换等于图像的平均灰度级。即常说的直流分量。
- 可分离性:二维DFT可分离为两次一维DFT。
- FFT需满足行列均为2n。
- 旋转性质:f(x,y)旋转相同角度,其傅里叶变换也旋转相同角度。(由极坐标可证明)
- 相关定理:空域f(x,y)与g(x,y)的相关等价于频域中F(u,v)的共轭与G(u,v)相乘。
相关的应用在于匹配:确定是否有感兴趣的物体区域。
第四章——图像增强
图像增强的点运算
图像增强:采用一系列技术改善图像的视觉效果,或将图像转化成一种更合适于人或机器进行分析和处理的形式。
主要方法(按照图像的作用域):
空间域增强:直接对图像各像素进行处理;
频率域增强:对图像经傅里叶变换后的频谱成分进行处理,然后逆傅里叶变换得到所需要的图像。
图像增强的目的:
1.改善视觉效果。
2.突出图像中感兴趣的信息,抑制不重要的信息,来提高图像的使用价值。
3.转换为更适合于人或机器分析处理的形式。
4.增强后的图像不一定保真。
图像增强的主要方法:
1.对比度增强:扩大图像中感兴趣特征的目标
灰度变换法:线性变换;对数变换;指数变换;
灰度变换是图像增强的重要手段之一,通过调整图像的灰度动态范围或调整图像的对比度对图像进行调整。
对比度:通俗讲为明暗的对比强度;
线性变换:生成图像灰度值为原来的线性变化(曝光不足或过度);
分段线性变换:将不同段的灰度值经不同的线性函数生成生成图像(只对图像中部分目标感兴趣,这时候需要突出感兴趣目标所在的灰度区间,抑制不感兴趣的灰度区间);
非线性灰度变换:使用非线性函数作为映射函数,如对数变换和指数变换
对数变换:生成图像灰度值为原来的对数变化(与人的视觉匹配);
指数变换:生成图像灰度值为原来的指数变化;
直方图调整法:直方图均衡化;直方图规定化;
2.空间域增强(空间域平滑和空间域锐化)
图像平滑是通过积分过程使图像边缘模糊,而图像锐化是通过微分使图像边缘突出,清晰;
图像平滑也称为图像去噪,是为了抑制图像噪声改善图像质量进行的处理。这种噪声可能是在图像获取和传输等过程中造成的,噪声会使图像恶化,质量下降,图像模糊,特征淹没,对图像分析很不利。
空间域的几种平滑方法:
-
领域平均法;
-
超限像素平滑法;
-
有选择保边缘平滑法;
-
中值滤波法;
领域平均法:假设图像由许多灰度恒定的小块组成,相邻的像素之间存在很高的空间相关性,而噪声则是统计独立的。所以可以用领域内各像素的灰度平均值代替像素原来的灰度值,实现图像的平滑。 领域平均法相当于卷积的特例; 特点:算法简单,但是降低噪声的同时会使图像产生模糊,特别是在边缘处和细节处,且领域越大,去噪能力增强的同时模糊程度越严重; 超限像素平滑法:对领域平均法作了改进,将原像素与邻域平均法所得像素作差的绝对值运算,所得结果与选定阈值比较,来决定新像素的灰度值。 特点:对抑制椒盐噪声比较有效;对保护微小灰度差的细节和纹理也比较有效; 有选择保边缘平滑法:对任意像素的5*5领域,采用9个掩模,其中包括一个3*3正方形,四个5边形和四个6边形。计算各个掩模的均值和方差,对方差进行排序,最小方差所对应的掩模区的灰度均值就是像素的输出。 特点:用方差来测度区域的灰度均匀性,如果区域内含有尖锐的边缘,它的灰度方差就会很大,如果不含边缘或灰度均匀的区域,方差就小,所以最小方差所对应的区域就是灰度最均匀区域,这种平滑方法既能消除噪声,又不会破坏区域边界的细节; 中值滤波法:(这个课好像被吞了……以下是百度资料)是一种非线性
滤波器,也是一种统计排序滤波器,每一像素点的灰度值为某领域窗口内的所有像素点灰度值的中值; 特点:对孤立的噪声像素即椒盐噪声,脉冲噪声具有良好的滤波效果,可以保持图像的边缘特性;
图像锐化目的是增强图像的边缘或轮廓。
图像锐化方法:
梯度法:(最常使用)
对于离散图像处理来说,常用的是大小,称为梯度;
而上图公式2中的一阶偏导数用一阶差分近似的表示(如下图);
除了梯度算子,还有Roberts算子,Prewitt算子和Sobel算子也可计算梯度,增强边缘。
Prewitt算子:加大了边缘增强算子的模板大小,由2×2扩大到3×3,目的是在锐化边缘的同时减少噪声的影响。
Sobel算子:在Prewitt算子基础上,对4-领域采用加权的方法计算差分。
梯度法得到图像的输出方式:
- 用图像的梯度表示图像
仅显示灰度变化比较陡的边缘轮廓,而灰度变化比较平缓的区域为黑色; - 增加阈值,在梯度不满足关系时用原像素表示图像
可使明显的边缘轮廓得到突出,又不会破坏原来灰度变化比较平缓的背景 - 把明显的边缘用一个固定的灰度级LG来表示
- 把背景用固定的灰度级LG表示,便于研究边缘灰度的变化。
- 明显边缘和背景分别用灰度级LG和LB表示,生成二值图像,便于研究边缘所在位置。
Laplacian增强算子方法:
特点:在灰度均匀的区域内或斜坡中间值为0,增强图像上像元灰度不变;在斜坡底或低灰度侧形成“下冲”;而在斜坡顶或高灰度侧形成“上冲”。
高通滤波法:用高通算子和图像卷积来增强边缘。
常用算子有:
3.频率域增强
基本原理:选择合适的滤波器H对原图像进行傅里叶变换后F的频谱成分进行处理,然后经逆傅里叶变换的到增强后的图像g。
一般过程:
对于图像来讲,噪声主要在高频部分,所以要用低通滤波器来抑制图像的高频成分,再经过逆傅里叶变化得到滤波图像,以达到平滑图像的目的。
常用的频率域低通滤波器:
- 理想低通滤波器
- Butterworth低通滤波器
- 指数低通滤波器
- 梯形低通滤波器
4.彩色增强技术
人的视觉特性:
分辨的灰度级介于十几到二十几之间;
彩色分辨能力可达到灰度分辨能力的百倍以上;
伪彩色增强技术:是把黑白图像的各个不同灰度级按照线性或非线性的映射函数变换成不同的彩色,得到一副彩色图像的技术。
伪彩色增强的方法:密度分割法,灰度级-彩色变换 等;
- 密度分割法:把黑白图像的灰度级从黑到白分成N个区间,给每个区间指定一种彩色Ci,这样便可以把一副灰度图像变成一副彩色图像。
- 灰度级-彩色变换:根据色度学原理,将原灰度图像的灰度范围分段,经过红,绿,蓝三种不同变换,变成三基色分量,然后用它们分别去控制彩色显示器的红,绿,蓝电子枪,便可以在彩色显示器的屏幕上合成一副彩色图像。
下为三种变换的函数(从左至右分别为 红变换,绿变换,蓝变换)
第五章——图像复原与重建
图像退化模型
成像过程中,不同因素的影响导致影像质量下降,导致图像退化。
- 图像退化:图像在形成,传输和记录过程中,由于成像系统,传输介质和设备的不完善,使图像的质量变坏。
- 典型表现:模糊,失真,有噪声。
- 产生原因:成像系统像差,传感器拍摄姿态和扫描非线性,成像设备与物体运动的相对运动,大气湍流,成像和处理过程中引入的噪声等。
图像退化的数学模型
输入图像f(x,y)经过某个退化系统后输出的是一副退化的图像。为了讨论方便,把噪声引起的退化即噪声对图像的影响一般作为加性噪声考虑。原始图像f(x,y)经过一个退化算子或退化系统h(x,y)的作用,再和噪声n(x,y)进行叠加,形成退化后的图像g(x,y)。
通常我们假设图像经过的退化系统是线性时不变系统(这里注意是线性 移 不变系统)
用线性移不变系统模型来描述图像退化的原因:
- 由于许多种退化都可以用线性位移不变模型来近似,这样线性系统中的许多数学工具如线性代数,能用于求解图像复原问题,从而使运算方法简捷和快速。
- 当退化不太严重时,一般用线性位移不变系统来复原图像,再很多应用中有较好的复原效果,且计算大为简化。
- 实际上,尽管非线性和位移可变的情况能更加准确而普遍地反映图像复原问题的本质,但在数学上求解困难,只有在要求很精确的情况下采用位移可变的模型去求解,其求解也通常以位移不变的解法为基础修改而成。
图像复原
图像复原:尽可能恢复退化图像的本来面目。沿图像退化的逆过程进行处理。
图像复原流程:
- 找出退化原因;
- 建立退化模型;
- 反向推演;
- 恢复图像;
典型的图像复原是根据图像退化的先验知识,建立退化现象的数学模型,再根据模型进行反向的推演运算,以恢复原来的景物图像。因此,图像复原的关键是知道图像退化的过程,即图像退化模型。并据此采用相反的过程求得原始图像。
图像增强和图像复原的区别:
- 图像增强不考虑图象是如何退化的,而是主观上试图采用各种技术来增强图像的视觉效果。因此,图像增强可以不顾增强后的图像是否失真,只要达到想要的目视效果就可以。
- 图像复原需要知道图像退化的机制和过程等先验知识,客观上找出一种相应的逆处理方法,从而得到复原的图像。
- 如果图像已退化,应先作复原处理,再作增强处理。
- 二者目的都是为了改善图像的质量
图像复原可以看成是图像的逆过程(如下图):
逆滤波复原基本原理:
将1/H(u,v)称为逆滤波器;
噪声不存在时:
F(u,v) = G(u,v)/H(u,v)
过程为 用退化函数 除 退化图像的傅里叶变换,得到退化前图像的傅里叶变换的估计。被称为直接逆滤波图像复原。
噪声存在时:
F’(u,v) = F(u,v) + N(u,v)/H(u,v)
即使知道退化函数,也不能准确的复原图像,因为N(n,v)未知,更糟糕的情况是:如果退化函数是零或是非常小的值时,则N(u,v)/H(u,v)很大,很容易支配F(u,v)的估计值,会对逆滤波复原的图像产生很大的影响。
解决方法:限制滤波的频率,从频谱图可知,高频分量(噪声)的值接近0,而H(0,0)在频率域中通常是H(u,v)的最高值。因此可能缩短滤波半径,使通过的频率解决原点,减少遇到零值的概率。
逆滤波复原基本步骤:
- 对退化图像g作二维离散傅里叶变换,得G;
- 计算系统点扩散函数(即退化函数)h的二维离散傅里叶变换,得H;
- 逆滤波计算F = G/H;
- 计算F的逆傅里叶变换,得f;
实际获得的结果中有噪声,因而只能得到估计值。可将H进行调整以减少噪声对复原信号的影响。
图像几何校正
目的:在诸如数字识别,车牌识别,条形码识别,遥感影像信息提取等应用场景中,特别是基于日常便携图像采集设备的应用场景中,通常图形采集设备采集的图像,不可避免地存在运动模糊,畸变失真退化等成像问题。需要对这样的图像进行几何校正
几何畸变:
- 在实际的成像系统中,图像捕捉介质平面和物体平面之间不可避免地存在有一定地转角和倾斜角,转角对图像地影响是产生图像旋转,倾斜角的影响表现为图像发生投影变形。
- 或由于摄影机系统本身的原因导致的镜头畸变。
- 此外还有由于物体本身平面不平整导致的曲面畸变如柱形畸变等。
几何畸变可分为线性几何畸变和非线性几何畸变:
通常情况下:
线性几何畸变:缩放,平移。旋转等畸变。
非线性几何畸变:是由成像面和物平面的倾斜,物平面本身的弯曲,光学系统的像素差造成的畸变,表现为物体与实际的成像各部分比例失衡。
常见几何畸变退化问题的复原大多是:基于成像系统;
优点是一点确立成像模型,便可以快速有效地根据模型参数对图像进行几何变换,从而实现复原。同时缺点是,由于面临的图像其成像系统未知且多样化,因此,这种方法不适合于解决一般性无法预知模型的畸变退化。
另外一种方法:多项式变换技术;其实质是利用数值分析的方法求解几何变换方程。
优点是不需要预先知道成像模型,对复杂曲面畸变能够进行校正和复原。缺点是运算量较大,不适宜实时性较高系统,多多项式次数和控制点的选取要求严格。
- 图像空间坐标变换(确定校正后图像中每个像素的空间坐标):首先建立图像像点坐标和物方对应点坐标间的映射关系,解求映射关系中的未知参数,然后根据映射关系对图像各个像素坐标进行校正。
- 灰度内插(确定校正影像中每个像素的灰度值)。
几何校正的坐标变换:
分为直接法和间接法两种:
灰度内插方法及其特点:
双线性内插法是利用待求点四个邻像素的灰度在两个方向上作线性内插。
第六章——图像压缩
图像压缩指的是对于图像数据进行编码存储,以减少它的存储空间为目的。本质上就是对图像源数据按一定的规则进行变换和组合,从而达到以尽可能少的代码表示尽可能多的信息。压缩通过编码来实现,或者说编码带来压缩的效果,所以,一般把此项处理称之为压缩编码。
研究背景:
信息传输方式发生了很大改变:通信方式的改变,语言+文字——>语音+文字+图像。通讯对象,人与人,人与机器,机器与机器。
图像传输与存储需要的空间:彩色视频信息,传真数据;
由于通讯方式和通信对象的改变带来的最大问题是:
传输带宽,速度,存储器容量的限制。
图像中的数据冗余的概念:
只要接收端不产生误解,就可以减少承载信息的数据量。
整理图像的描述方法可以达到压缩的目的。
视觉心理冗余,一些信息在一般视觉处理中比其他信息的相对重要程度要小,这种信息就被称为视觉心理冗余。
由于一幅图像存在数据冗余和主观视觉冗余,其压缩方式就是从这两方面着手开展的。
因为有数据的冗余,将图像信息的描述方式改变后,可以压缩掉这些冗余。因为有主观视觉冗余,当忽略一些视觉不太明显的微小差异,可以进行所谓的有损压缩。
压缩的必要性:
一幅模拟图像必须经过脉冲编码调制(PCM——Pulse Code Modulation)才能变成数字图像。(PCM-脉冲调制早期用于语言信号传送).
图像编码的目的:节省存储空间;减少传输时间;利于处理;降低处理成本。
图像压缩分类:
从应用角度分类:禁止图像编码,活动图像编码(针对视频),二值图像编码。
从信息保持程度角度分类:
有损压缩,无损压缩;
从具体的编码技术角度分类:
空域法,变换域法;预测编码,变换编码,统计编码等;
图像保真度准则
保真度准则:图像品质的核心问题是逼真度问题。经过处理的图像(包括经过压缩编码后的图像)与一个标准图像之间的偏差可以作为图像逼真度(保真度)的度量。这一偏差,包括亮度,色度,分辨率以及某些心理物理学参数。(偏差应在允许的范围内)
- 客观保真度准则:
- 主管保真度准则:挑选一定数量的观察者打分。
编码压缩的性能参数:
如何度量编码方式的优劣(速度,效率,保真度)
冗余大致可分为三类:
编码冗余:符号序列,码字
像素间相关性冗余:帧间像素信息冗余,帧内像素信息冗余。
视觉冗余:人眼对所有视觉信息并不是都具有相同的敏感度;人眼的空间分辨率,时间分辨率;
统计编码方法
编码有统计编码,变换编码等;
统计编码:根据图像像素灰值出现的概率的分别特性而进行的压缩编码叫统计编码。
熵与平均码字长度:
- H(d)
- H(d) >R(d)的无失真编码方法不存在。
熵编码:使编码后的图像的平均码字长度尽可能接近图像的熵H。
基本思路是:概率大的灰度级用短码字,概率小的,用长码字。 - H(d) >R(d)的无失真编码方法不存在。
统计编码的方法:
-
行程编码:RLE编码
基本原理:通过改变图像的描述方式,来实现压缩。将一行中颜色值相同的相邻像素用一个计数值和该颜色值来代替。
特点:适合行程较长的图像。 -
huffman编码(熵编码)
基本原理:为了达到更大的压缩率,提出了一个方法,就是将图像中出现频率较大的像素给一个比较短的编码,将出现频率小的像素给一个比较长的编码。
算法:哈夫曼算法。
图像压缩时的标准
预测编码与变换编码压缩:
预测编码:根据“过去”的时刻的像素值。运用一种模型,预测当前的像素值,预测编码通常不直接对信号编码,而是对预测误差进行编码。当预测比较准确,误差较小时,即可达到编码压缩的目的。
原理:对图像的一个像素的离散幅度的真实值,利用其相邻像素的相关性,预测它的下一个像素的可能值,再求两者差,对这种具有预测性质的差值,量化,编码,就可以达到压缩的目的。
预测编码:每行最开始的几个像素无法预测,这些像素需要用其他方式编码,这是采用预测编码所需要的额外操作;
预测系数随着不同的图像不同,但对每幅图像都计算预测系数太麻烦,也不现实,可参考前人得到的数据选择使用,在静止图像压缩的国际标准(JPEG),对这种方法的前置点形式以及预测系数有一推荐值可供参考。
变换编码:图像数据经过正交变换之后,其变换系数具有一定的独立性,(例如,对于FT来说,频谱系数大的变换系数均集中在低频部分,而高频部分的幅值很小,因而可以对低频的变换系数数量化,编码和传输,对高频部分不处理,这样可以达到图像压缩的目的。)
第七章——图像分割
边缘检测
边缘:图像中像素灰度有阶跃变化或屋顶变化的那些像素的集合。常在目标与背景,目标与目标,区域与区域之间,勾画出了目标物体的轮廓,是人们能对各种目标一目了然,是进行图形分析和识别的重要基础。
图像边缘包括了丰富的信息,如边缘的方向,形状,阶跃性质;
具体的边缘检测算子:
-
梯度算子:
梯度:
为了检测边缘点,选取适当的阈值T,对梯度图像进行二值化。
特点:仅计算相邻像素的灰度值,对噪声比较敏感,无法抑制噪声的影响。 -
Roberts算子:
与梯度算子类似,计算方向不一致。计算45度方向两个像素的梯度值。
特点:与梯度算子检测边缘的方法类似,对噪声敏感,但效果较梯度算子略好。 -
Prewitt算子和Sobel算子
prewitt算子
特点:在检测边缘的同时,能抑制噪声的影响。
Sobel算子与Prewitt算子类似,只是采用了带权的计算方法。
特点:对4领域采用带权方法来计算差分,能进一步抑制噪声,但检测的边缘较宽。 -
Kirsch算子(方向算子)
特点:在计算边缘强度的同时可以得到边缘的方向;个方向间的夹角为45度。 -
Nevitia算子(方向算子)
特点:具有12个模板,各方向之间的夹角为30度而不是45度。 -
拉普拉斯算子
前面的边缘检测算子都是利用边缘点一阶导数的特性。
对于阶跃边缘,其二阶导数在边缘点处出现零交叉,并且边缘点处两边像素的二阶导数符号。
拉普拉斯算子利用的是边缘点的二阶导数特性。
特点:
各向同性,线性和位移不变
对细线和孤立点检测效果较好
对噪声的敏感,对噪声有双倍加强作用
不能检测出边的方向
常产生双像素的边缘
由于梯度算子和拉普拉斯算子都对噪声比较敏感,因此一般在用他们检测边缘前要先对图像进行平滑。
- Marr算子
由于拉普拉斯算子对噪声敏感,为了减少噪声影响,可先对图像进行平滑,然后再用拉普拉斯算子检测边缘。
先用一种正态分布的高斯函数作为平滑函数对图像进行平滑。
高斯函数:
在该算子中,Δ的选择很重要,Δ小时边缘位置精度高,但边缘细节变化多;Δ大时平滑作用大,但细节损失大;
可以通过判断零交叉点及其两侧像素符号的变化来确定边缘点。边缘点两侧的二阶导数是异号的。
- 曲面拟合法
基于差分检测图像边缘的算子往往对噪声敏感。因此对一些噪声比较严重的图像就难以取得满意的结果。若用平面或高阶曲面来拟合图像中某一小块区域的灰度表面,求这个拟合平面或曲面外法线方向的微分或二阶微分检测边缘,可减少噪声影响。
四点拟合灰度表面法
从公式可以看出
a为两行像素平均值的差分,b为两列像素平均值的差分;
特点:其过程是求平均后再求差分,因而对噪声有抑制作用。
也可以简化为用模板求卷积进行边缘检测
- 线的检测
通过比较典型模板的计算值,确定一个点是否在某个方向的线上。
前面的都是阶跃状边缘的检测
而图像上的线化一般属于屋顶状边缘,线化的检测也可以通过模板计算,来确定一个点是否在某个方向的线上。
下面是集中线化模板的例子:
我们可以通过判断R1,R2,R3,R4中的最大值是否大于某一个阈值来检测线化,并且最大值对应的方向就是线化的方向;
Hough变换检测直线
Hough变换检测直线只要是针对图像上的边缘点,找出其共线的点集及其直线方程。
图a中一条直线对应图b中一点;
这种线到点的变换就是霍夫变换。
图c中的直线系对应图d中的一正弦图像;
具体实现步骤:
- 在ρ,θ的极值范围内对其分别进行m,n等分,并设一个二维数组A(m,n),用来统计焦点计数值、
- 对图像上所有的边缘点作Hough变换,求每个点在θjHough变换后的ρ,判断其与那个数组元素对应,则让该数组元素值加1.
- 比较数组元素值的大小,最大值所对应的ρ,θ就是这些共线点对应的直线方程的参数。
特点:
过粗则直线参数不准确,过细则计算量增加很多,因此,对ρ,θ的量化要兼顾参数数量化精度和计算量,
Hough变换检测直线的抗噪性能强,能将断开的边缘连接起来
Hough变换也可用来检测曲线。
Hough变换检测曲线
对Hough变换扩展后,可以用来检测图像中特定形状的物体,如:圆或椭圆;
具体算法步骤如下:
- 对将要找寻的某物边界建立一个R表,这是一个二维表,以φ的步进值求r和α;
- 在需要判断被测图像中有无已知某物时,也可对该某物各点在内存中建立一存储区,存储内容是累加的。把xc,yc从最小到最大用步表示,并作为地址,记作A存储阵列内容初始化为零;
- 对图像边界上每一点(x,y),计算φ(x),查原来的R计算(xc , c),
- 使相应的存储阵列A(xc,yc)加1
- 在阵列中找一最大值,就找出了图像中符合要找的某物体边界。
区域分割
一般来说,一幅图像中,相同区域中的像素应该具有相同或相似的属性。而不同区域的像素的属性则不同。
区域分割就是要寻找这样的就有代表性的属性,并利用这类属性进行划分。使就有相同属性的像素归属同一区域,不同属性的像素则归属不同区域
最简单的图像:只有两类区域的图像。
复杂图像:有两类以上区域的图像。
最简单图像的区域分割法:
g(x,y)为分割后的二值图像。
确定阈值T:
-
状态法:统计图像的灰度直方图,若其直方图呈双峰,且有明显的谷。将谷所对应的灰度值作为阈值,再按上面的公式进行二值化。
这种方法适合目标和背景的灰度差别比较大,且直方图有明显的谷的情况。
在应用中,有时为了便于阈值的选取,可采用灰度加权的方法产生新的直方图,得到更大的峰谷比。 -
判断分析法:假设最简单图像f(i,j)的灰度区域为[0 , L - 1],选择一阈值t将图像的像素分为c1,c2两组,其中c1组像素数为w1,
显然,组内方差越小,则组内像素越相似;组间方差越大,则两组的差别越大。因此,组间方差与组内方差的比值越大,则分割效果越好。通过改变t的取值,使组间方差与组内方差的比值最大,则此时t为阈值。 -
最小误差分割:
复杂图像的区域分割
复杂图像分割的步骤:
- 自动平滑直方图:一般来说,待分析图像的灰度直方图不是很平滑,这对自动寻找峰与下一步确定阈值带来困难,因此,有必要对直方图进行平滑。一般来说,可以采用空间滤波器与直方图做卷积来进行平滑。
- 确定区域类数:对于灰度层次不多的图像,一个区域类通常对应直方图中的一个峰。但是,平滑后的直方图中的每一个峰不一定都对应一个区域类。因而有必要通过检查认定峰对应的区域类。
- 自动搜索多个阈值:可以采用前面介绍过的判断分析法,依次计算各峰两两之间的最佳阈值,然乎再用这组阈值分割原始图像。
特征空间聚类
利用特征空间聚类进行图像分割,可以看成是对阈值分割概念的推广。他将图像空间中的像素用对应的特征空间点表示,然后根据它们在特征空间的聚类情况对特征空间进行图像分割,最后将它们映射回原图像空间,得到分割的结果。
在复杂图像分割方法中,一般要求类别数已知,但实际中我们并没有这些先验知识。这是聚类分类方法就显示出了它的独特优越性。
K-均值聚类方法:
是一种迭代算法,每迭代一次,类中心就刷新一次,经过多次迭代,使类中心趋于稳定为止。
具体步骤:
- 任意选取k个初始均值 Z
1, Z2; - 使用最小距离判别法将任一样本分给K类中的某一类;若对所有的i!=j,有x到Z
i的距离小于x到Zj的距离,则x属于第i类。 - 根据步骤2类中的分类结果,计算各类均值,并以此作为新的类均值。
- 比较新旧类均值,若它们之差小于某一阈值,则认为中心已经稳定,可以终止算法,输出结果,否则返回步骤2继续进行。
与阈值分割类似,聚类方法也是一种全局的方法。比边缘检测的方法抗噪强。
一般来说K-均值算法需要预先设定类的数目。实际中,尝使用试探法来确定K。K均值算法的收敛问题一直没有得到理论证明,但在很多情况下,其分类结果并不受初始中心的影响。
区域增长
前面的基于阈值的图像分割技术,基本上都没有考虑到图像像素空间的连接性,区域增长法则正好相反,它顾及了像素之间的连接性。
基本原理:先把图像分割成若干个小区域,然后比较相邻小区域特征是否相似,若他们足够相似,则作为同一区域合并,以此将特征相似的小区域不断合并,知道不能合并位置,最后形成特征不同的区域。
区域增长根据所用的领域方式和相似性准则的不同,产生各种不同的区域扩张法。可分为:单一型(像素与像素);质心型(像素与区域);混合型(区域与区域);
简单区域的生长方法:以图像的某个像素为生长点比较相邻像素的特性,将特征相似的相邻像素合并为同一个区域。以合并的像素为生长点,继续重复上面的操作,最终形成具有相似特征的像素的最大连通集合。
像素灰度为特征的简单区域增长法的具体步骤:
- 对图像进行光栅扫描,求出不属于人格区域的像素。当寻找不到这样的像素时结束操作。
- 把这个像素灰度同其4-领域或8-领域中不属于其他区域的像素进行比较,若灰度差值小于阈值,则合并到同一区域。并对合并的像素赋予标记。
- 从新合并的像素开始,反复进行第二步操作。
- 反复进行第二步,第三步操作直至不能再合并为止。
- 返回1的操作,寻找新区域出发点的像素。
这种方法简单,但如果区域之间的边缘灰度变化平缓或者是边缘相交于点时,有可能会产生将两个区域合并的情况。
为了克服这个缺点,在上面的步骤二中,可能不是比较相邻像素的灰度而是比较已存在区域的平均灰度,于该区域相邻接的像素的灰度值。这就是下面的质心型区域生长法。
质心型链接操作步骤类似简单区域扩张法,唯一不同的是在上述步骤二的操作中,改为比较已存在区域的像素灰度平均值与该区域邻接的像素灰度值。若差值小于阈值,则合并。缺点是,区域增长的结果与起始像素有关,起始位置不同,则分割结果有差异。
混合型区域生长:把图像分割成小区域,比较相邻的小区域的相似性,相似则合并,直到不能合并为止。
两种混合型区域增长方法:
不依赖于起始点的方法:
- 设灰度差的阈值为0,用简单区域扩张法把具有相同灰度的像素合并到同一区域,得到图像的初始分割图像。
- 从分割图像一个小区域开始,求出相邻区域间的灰度差,将差值最小的相邻区域合并。
- 反复进行步骤二的操作,把区域依次合并,适当阶段需停止合并,得到分割图像。
假设检验法:根据图像子块内的灰度分布的相似性进行子块合并,最终实现图像的分割。
- 把图像分割成互不交迭的,大小为n × m的子块。
- 比较相邻子块的灰度直方图相似性,相似则合并成同一区域。
下面是相似的判断标准,有两种。
其中H1(g)和H2(g)分别为两个相邻子块的累计直方图。
- 反复进行步骤二的操作,直到区域不能合并为止。
难点在于:子块大小n如何确定?
n太大会使区域形状不自然,会遗漏小的目标。
n太小会使相似性的判断标准(a)和(b)的可靠性会下降,从而导致分割质量差。
根据经验,实际应用中,n一般取5~10。
分裂合并方法
对于待分割的图像,当事先不知道其区域形状和区域数目的时候,可以采用区域分裂合并方法,该方法也无需预先指定种子点,它是按照某种一致性的准则分裂或者是合并区域。可以先进行分裂运算,然后再进行合并运算。也可以分裂和合并运算同时进行,经过连续的分裂和合并,最后得到图像的精确分割效果。分裂合并法对分割复杂的场景图像比较有效。
分裂合并法是基于四叉树的思想。把原始图像整体作为树根或零层,将图像等分成四块,作为被分裂的第一层。
对于第一层的每一个子块,如果各像素属性一致,则不再等分。
如果属性不一致,则子块须继续分裂成相等的四块,作为第二层。如此循环。
分裂合并操作原则:
合并:当同一层中的四块中的像素满足某一特性的均匀性时,将它们合并为一母块。
分裂:当某一层中的某一子块内像素不满足均匀条件时,将它们分裂成四个子块。
在这里的均匀性可以是灰度的均匀性,也可以是某一种纹理特征的均匀性。
分裂合并法的具体步骤:
- 初始分割:首先把一副图像分裂到第二层,子块数n = 16;
- 合并处理:按预先给定的合并的原则,对第二层的每四个子块进行检查,假定子块21,22,23,24符合合并原则,合并后标记为20;
- 分裂处理:当第二层中间的每一个子块内像素不满足特性均匀性条件时,将它们分裂成四个子块;
- 组合处理:以每一块为中心,检查与其相邻各块,凡符合特征均匀性的,再次合并。
- 消失小区:小区与相邻大块进行比较,按他们对邻近大块的均匀性程度分别划到大块中去。
一副图像初始分割为多少层?视图像的大小而定,另外,在消失小区时,会给区域的边缘带来一定误差,与前面讲到的一些区域分割方法相比,
算法比较复杂,同时对于复杂图像的分割效果比较好。
第八章——二值图像处理
在图形处理的研究和应用中,二值图像具有十分重要的地位,现在很多的图像处理系统,就是以二值图像的处理为主。这主要是因为二值图像处理简单,数据量小,处理速度比较快,成本也低。而且二值图像能定义几何学中的各种概念,多值图像也能转化成二值图像。
二值图像处理的基本流程如图所示
二值图像的连接性和距离
在二值图像的特征分析中,最基本的概念就是二值图像的连接性,也称连通性和距离。
领域和邻接的概念:对任意的像素(i,j),把像素{(i+p,j+q)}(p,q是适当的整数)叫做像素(i,j)的领域。(前面写过)
像素的连接:
连接成分(连通成分):在二值图像中间,把相互连接的像素集合汇集为一组,于是具有若干个0值的像素和具有若干个1值的像素的组就产生了,
连接性有连接性矛盾
单连接成分;多重连接成分;(判断内部有没有孔)(孤立点是单连接成分)
欧拉数:在二值图像中,1像素连接成分数C减去孔数H的值叫做这幅图像的欧拉数或者示性数。
用E来表示欧拉数 则 E = C -H
对于一个1像素连接成分,1减去这个连接成分中所包含的孔数的差值叫做这个1像素连接成分的欧拉数。
二值图像的欧拉数是所有1像素连接成分的欧拉数之和。
像素的可删除性和连接数:某二值图像上某个像素的值改变后,使整个图像的连接性并不发生改变,即各连接成分既不分离,不结合,孔也不产生,不消失,则这个像素是可删除的。
一个像素的可删除性可用像素的连接数来检查。
对同一图像的像素,在4或8邻接的情况下,该像素的连接数不一定相同。
像素的连接数作为二值图像局部的特征量是很有用的。
像素按连接数Nc§的大小分类:
孤立点:对于1像素p,在4/8邻接的情况下,当其4/8邻接的像素全是0时,像素p称作孤立点,其连接数N~~c~~(p) = 0.
内部点:对于1像素p,在4/8邻接的情况下,当其4/8邻接的像素全是1时,像素p称作内部点,其连接数N~~c~~(p) = 0.
边界点:在1像素中,除了孤立点和内部点以外的点;连接数1<=N~~c~~(p)<=4;当连接数为1时,该点为删除点或端点;当连接数为2时,该点位连接点;当连接数为3时,该点为分支点;;当连接数为4时,该点位交叉点;
背景点:像素值为0的所有像素;
距离:
连接成分的变形操作
为了从二值图像中准确地提取有关的特征,一般都需要对二值图像进行一些增强处理,这些处理通常称为二值图像连接成分的变形操作。
连接成分的标记:为了区分二值图像中的连接成分,求得连接成分个数,对属于同一个1像素连接成分的所有像素分配相同的编号,而对不同的连接成分分配不同的编号的操作。
膨胀和收缩:
膨胀:把连接成分的边界扩大一层的处理。
收缩:把连接成分的边界点去掉从而缩小一层的处理。
膨胀和收缩的反复使用就可清楚二值图像中的小成分或孔
膨胀和收缩是数学形态学中最基本的变换,而数学形态学的应用几乎涵盖了图像处理的所有领域。
线图形化:将给定的图形变成线图形的处理,在二值图像处理中是非常重要的。
距离变换和骨架化处理:把任意图形转换成线图形的最有效方法之一。是求二值图像中1像素到0像素的最短距离的一种处理。
在经过了距离变换得到的图像中,最大值点的集合就形成了区域P的骨架。
骨架反映了原始图形的形状。给定距离和骨架就能恢复该图形,但恢复的图像不能保证原始图形的连接性。距离变换和骨架化处理常用于图形压缩,提取图形幅宽和形状特征等。
细化:从二值图像中提取线宽为像素的中心线的操作。
从处理方法上分为顺序处理和并行处理,从连接性上分为8-邻接细化和4-邻接细化。
希尔迪奇(Hilditch)方法:8-邻接细化中一种
细化步骤如下:
- 按光栅扫描顺序研究二值图像的像素P
0。当P0完全满足以下六个条件时,把P0的值置换为-1.注意,这里条件2,3,5是在并行处理方式中所用的和各像素的值。条及件是在顺序处理方式中所用的各像素的值。 - 对以置换成-1的像素,在不用当前处理结果的并行处理方式中,把该像素的值复原到1,而在用当前处理结果的顺序处理方式中,仍为-1。
6个条件:
- P
0的值必须等于1; - P
0是边界像素的条件; - 不删除端点的条件;
- 保持孤立点的条件;
- 保持连接性的条件;
对于像素值为 - 1的全部像素,若其像素值为0,然后反复进行步骤一的操作,直到像素值为-1的像素不存在时结束线的细化处理。这时得到宽度为1的线图形。
其他细化方法:掩模细化,内接圆细化。
细化方法不同,所得图形也会有不同。
不管是哪种细化方法,都存在着不足,例如噪声的影响等。在线图形的外围上有尖状突起的时候,如不消除它。到最后判断时将会有分支。但像这种外围上的不规则性,在被增强的形状上有时在中心线上表现出来毛刺。所以,还要考虑研究消除噪声和去毛刺的方法。
边界跟踪:为了求得区域间的连接关系,必须沿区域的边界点跟踪像素,这个过程就称之为边界跟踪或边缘跟踪。
边界跟踪的具体方法和步骤:
根据光栅扫描发现像素从0开始变为1的像素P0时,P0作为边界的起点,存储它的坐标(i,j)值。
从像素(i,j-1)开始反时针方向在像素(i,j)的8-领域里寻找1像素,当第一次出现1像素记为Pk(这里k = 1)存储P1的坐标。
同上,反时针方向从Pk-1以前的像素开始在Pk像素的8-领域内寻找1像素,把最先发现像素值为1的像素记为Pk-1。
当Pk = P0而且Pk+1 = P1时,跟踪结束,在其他情况下,把k+1重新当做k返回第三步,反复进行处理。
上述这种边缘跟踪,是在图像边缘连接明确的假设下进行的。但实际上很多图像的边缘连接并不是明显的,这时候可以采取浓淡图像直接跟踪边缘的方法。
直接跟踪浓淡图像边缘的时候,必须同时进行边缘的检出。
边缘检测的算法之一就是根据图像梯度的大小和方向跟踪边缘的像素。当边缘是直线时,这种方法就比较简单。
形状特征提取
形状分析是指对图像中的区域目标提取形状特征,进而对图像进行识别和理解。
区域形状特征的提取方法可以分为以下的三类:区域内部形状特征提取;区域外部形状特征提取;利用图像层次型数据结构提取形状特性;
区域内部形状特征的提取和分析:包括空间域分析和变换域分析
空间域分析是直接在图像的空间域对区域内部提取形状特征,以便于分析。具体有:
拓扑描述子:对区域的全局描述很有用;欧拉数就是拓扑特性之一,是一个较好的区域描述子,可用于目标识别。
凹凸性:连接图形内任意两个像素的线段,如果不通过这个图形以外的像素,则这个图形就是凸的