图像压缩

图像压缩是数据压缩技术在数字图像上的应用，目的是减少图像数据中的冗余信息，从而用更加高效的格式存储和传输数据。

压缩的原理

资料越一致，代表统计特性越集中，包括傅立叶转换域(Fourier transform domain)、直方图(histogram)、特征值(eigenvalue)......等方面的集中度。压缩的通则即是利用资料的一致性，越一致的资料，越能够进行压缩。除此之外，也可利用资料的规则性与可预测性来对其作压缩。通常而言，若可以用比较精简的自然语言来描述一个东西，那么也就越能够对这个东西作压缩。

利用资料的特性作压缩

文章：常用字或字母(字母多出现E，少出现QXZ)。
歌曲：重复的旋律、频率的倍频关系、节拍内频率的稳定。
声音：能量多集中在低频、频率在短区间内的稳定。
卡通：每块区域的边缘(edge)资讯与颜色(color)、边缘(edge)资讯可以用较少参数编码(如果边缘(edge)是几何图案)。

资料压缩范例

声音：MP3(.mp3)，压缩率约1/3。
图片：JPEG(.jpg)，压缩率约1/10(灰阶)或1/20(彩色，利用4：2：0)。
影片：MPEG(H.264、H.265)，压缩率约1/30(灰阶)或1/60(彩色)。

影像的一致性

空间上的一致性

影像中每一点的值，会和相邻的点的值非常接近。

$\operatorname {F} [m,n+1]\,\!$ ≈ $\operatorname {F} [m,n]\,\!$

$\operatorname {F} [m+1,n]\,\!$ ≈ $\operatorname {F} [m,n]\,\!$

直方图(histogram)是统计出现次数的一种方法，它会去计算一个向量(vector)或一个矩阵(matrix)当中，有多少个点会等于某一个值。

举例来说， $\operatorname {x} [n]=[1,2,3,4,4,5,5,3,5,5,4]\,\!$

则 $\operatorname {x} [n]\,\!$ 的直方图(histogram)为 $\operatorname {h} [1]=1\,\!$ ， $\operatorname {h} [2]=1\,\!$ ， $\operatorname {h} [3]=2\,\!$ ， $\operatorname {h} [4]=3\,\!$ ， $\operatorname {h} [5]=4\,\!$

将影像相临值的差异，利用直方图(histogram)来统计，会发现值几乎都落在0附近。

频率上的一致性

一张影像的频谱大多集中在低频的地方。影像的“频率”是在空间域(space domain)作分析：

低频成分代表变化较为缓和的地方，对应的是影像的“颜色”(color)和“强度”(intensity)。
高频成分代表变化较为剧烈的地方，对应的是影像的“边缘”(edge)和“杂讯”(noise)。

常用影像压缩技术

压缩的技术分成两种：失真压缩(lossy compression)的压缩率较高，但无法重建原来的资料，例如：DFT、DCT、KLT(搭配量化(quantization)与截断(truncation))、4：2：2或4：2：0、多项式曲线的近似(polynomial approximation)；无失真压缩(lossless compression)的压缩率较低，但可以重建原来的资料，例如：二元编码(binary coding)、霍夫曼编码(Huffman coding)、算术编码(arithmetic coding)、格伦布编码 (Golomb coding)。

4：2：2或4：2：0

此技术运用的是空间上的一致性。

将像素(pixel)的RGB值，利用以下的公式转换成YCbCr

Y = 0.299 R + 0.578 G + 0.114 B

Cb = -0.169 R - 0.331 G + 0.500 B ( Cb = 0.565 (B - Y) )

Cr = 0.500 R - 0.419 G - 0.081 B ( Cr = 0.713 (R - Y) )

其中 Y 是亮度(Luminance)，Cb是蓝色色差(chrominance) ，Cr 是红色色差(chrominance)。

人类的视觉系统，对于亮度比较敏感，而对于彩度比较不敏感。因此我们可以利用人类视觉的特性，减少Cb、Cr的取样个数，取样格式有4：2：2 与 4：2：0两种。

假设一张图片原本压缩前(即4：4：4)的Y、Cb、Cr各有M×N个值，4：2：2的压缩Y保留为M×N个值、Cb、Cr则取样到各剩下M/2×N个值；4：2：0的压缩Y同样保留为M×N个值、Cb、Cr则进一步取样到各剩下M/2×N/2个值。从4：4：4到4：2：2，压缩率约为2/3；从4：4：4到4：2：0，压缩率约为1/2。从4：4：4压缩到4：2：2，再压缩到4：2：0，单一像素(pixel)储存的bit 数可以等效为：24 bits/pixel → 16 bits/pixel → 12 bits/pixel。

还原时，则是利用插值(interpolation)的方式：

$\operatorname {C_{\text{b}}} [2m+1,2n]\,\!$ = 1/2 ×( $\operatorname {C_{\text{b}}} [2m,2n]\,\!$ + $\operatorname {C_{\text{b}}} [2m+2,2n]\,\!$ )

8×8 离散馀弦转换(DCT)

此技术运用的是频率上的一致性。

通常我们会将影像切成8×8的方格作离散馀弦转换(DCT)，原因如下：

一张影像的每个区块，其高低频成分都不一样，对整张影像直接作离散馀弦转换(DCT)，多少会有高频成分的出现。如果切成8×8的方格，则对大部分的方格几乎都没有高频成分。
降低记忆体的需要量
降低运算量

经过离散馀弦转换(DCT)后的8×8矩阵称为DCT矩阵。DCT矩阵最左上角的系数称为直流(DC)成分，而其他63个系数则称为交流(AC)成分。越靠近DC值的AC值系数表示频率较低的部分，而越往右下角方向的AC值代表的频率则越高。

2D的8×8 DCT的输出通常会按照"zigzag"的顺序，将2D转为1D的型态。按照此顺序排列，能量可能较大的会被摆在前面，而后面的高频成分从某个值开始后几乎为零，以符号EOB(end of block)表示，指后面的高频的部分经过量化(quantization)之后皆为0。

差分编码(Differential coding)

此技术运用的是空间上的一致性。

差分编码指的是，除第一个元素外，将其中各元素都表示为各该元素与其前一元素的差的编码。

对 $\operatorname {DC} [i,j]\,\!$ ，是针对 $\operatorname {DC} [i,j]\,\!$ - $\operatorname {DC} [i,j-1]\,\!$ 去编码，而不是直接对 $\operatorname {DC} [i,j]\,\!$ 作编码。

霍夫曼编码(Huffman coding)

霍夫曼编码(Huffman coding)的编码原则：(Greedy Algorithm)

所有的码皆在编码树(coding tree)的端点，再下去没有分枝。满足唯一可解译码(uniquely decodable code)与即时可解码(instantaneous decodable code)。
机率越大的，编码长度(code length)越短；机率越小的，编码长度(code length)越长。
假设 $S_{\text{a}}\,\!$ 是第L层的节点(node)， $S_{\text{b}}\,\!$ 是第L+1层的节点(node)，则 $\operatorname {P} (S_{\text{a}})\,\!$ >= $\operatorname {P} (S_{\text{b}})\,\!$ 必须满足。

不满足以上的条件则往上推一层。

算术编码(Arithmetic coding)

霍夫曼编码(Huffman coding)是将每一笔资料分开编码，算术编码(Arithmetic coding)则是将多笔资料一起编码，因此压缩效率比霍夫曼编码(Huffman coding)更高，近年来的压缩资料大多使用算术编码(Arithmetic coding)。

范例：

假设要对X来作二进位的编码，且经过事先的估计， $\operatorname {X} [i]=a\,\!$ 的机率为0.8， $\operatorname {X} [i]=b\,\!$ 的机率为0.2。

若实际上输入的资料为 $\operatorname {X} =aaabaa\,\!$

Initial( $\operatorname {X} [1]=a\,\!$ )：lower =0，upper=0.8

When i = 2 ( $\operatorname {X} [2]=a\,\!$ )：lower =0，upper=0.64

When i = 3 ( $\operatorname {X} [3]=a\,\!$ )：lower =0，upper=0.512

When i = 4 ( $\operatorname {X} [4]=b\,\!$ )：lower =0.4096，upper=0.512

When i = 5 ( $\operatorname {X} [5]=a\,\!$ )：lower =0.4096，upper=0.49152

When i = 6 ( $\operatorname {X} [6]=a\,\!$ )：lower =0.4096，upper=0.475136

由于 lower =0.4096，upper=0.475136

lower <= 14* $2^{-5}\,\!$ < 15* $2^{-5}\,\!$ <= upper

所以编码的结果为

$14_{\text{(2,5)}}=01110\,\!$

动态影像之编码

MPEG(Moving Picture Experts Group)为动态影像编码的国际标准。动态影像编码的使用原理为：不同时间，同一个像素(pixel)之间的相关度通常极高，只需对有移动的物件(objects)记录移动向量(motion vector)。

$\operatorname {F} [m,n,t]\,\!$ ：时间为t的影像

如何由 $\operatorname {F} [m,n,t]\,\!$ ， $\operatorname {F} [m,n,t+delta]\,\!$ 来预测 $\operatorname {F} [m,n,t+2*delta]\,\!$ ？

(1)移动向量 $\operatorname {V_{\text{x}}} [m,n]\,\!$ ， $\operatorname {V_{\text{y}}} [m,n]\,\!$

(2)预测 $\operatorname {F} [m,n,t+2*delta]\,\!$ ：

$\operatorname {F_{\text{p}}} [m,n,t+2*delta]\,\!$ = $\operatorname {F} [m-{V_{\text{x}}}[m,n],n-{V_{\text{y}}}[m,n],t+delta]\,\!$

(3)计算“预测误差”

$\operatorname {E} [m,n,t+2*delta]\,\!$ = $\operatorname {F} [m,n,t+2*delta]\,\!$ - $\operatorname {F_{\text{p}}} [m,n,t+2*delta]\,\!$

对预测误差 $\operatorname {E} [m,n,t+2*delta]\,\!$ 作编码。

影像档案的处理(Matlab)

基本概念

灰阶影像在Matlab 当中是一个矩阵，彩色影像在Matlab 当中是三个矩阵，分别代表红色(Red)、绿色(Green)、蓝色(Blue)。

.bmp: 没有经过任何压缩处理的图档

.jpg: 有经过JPEG 压缩的图档

要对影像做运算时，要先变成double的格式，否则电脑会预设影像为integer 的格式，在做浮点运算时会产生误差。

例如，若要对影像做2D离散傅立叶转换(Discrete Fourier transform)：

im=imread('C:\Program Files\MATLAB\pic\Pepper.bmp');

im=double(im);

Imf=fft2(im);

基本指令

Image 档读取: imread
Image 档显示: imshow, image, imagesc
Image 档制作: imwrite
Video 档读取: aviread

范例

黑白影像

im=double(imread('C:\Program Files\MATLAB\pic\Pepper.bmp'));

(如果Pepper.bmp 是个灰阶图，im 将是一个矩阵)

size(im);

(用size 这个指令来看im 这个矩阵的大小)

image(im);

colormap(gray(256));

彩色影像

im2=double(imread('C:\Program Files\MATLAB\pic\Pepper512c.bmp'));

size(im2);

(由于这个图档是个彩色的，所以im2 将由三个矩阵复合而成)

压缩方法

图像压缩可以是有损数据压缩也可以是无损数据压缩。常见的应用有raw和tiff格式等。gif和jpeg是有损压缩。通过DCT变换后选择性丢掉人眼不敏感的信号分量，实现高压缩比率。

无损压缩

对于如绘制的技术图、图表或者漫画，优先使用无损压缩，这是因为有损压缩方法，尤其是在低的位速条件下，将会带来压缩失真，如医疗图像或者用于存档的扫描图像……等，这些有价值的内容的压缩也尽量选择无损压缩方法。

游程编码
熵编码法
如LZW这样的自适应字典算法

有损压缩

有损方法非常适合于自然的图像，例如一些应用中图像的微小损失是可以接受的（有时是无法感知的），这样就可以大幅度地减小位速。

色彩空间：这是化减到图像中常用的颜色。所选择的颜色定义在压缩图像头的调色板中，图像中的每个像素都用调色板中颜色索引表示。这种方法可以与抖动一起使用以模糊颜色边界。
色度抽样：这利用了人眼对于亮度变化的敏感性远大于颜色变化，这样就可以将图像中的颜色信息减少一半甚至更多。
变换编码：这是最常用的方法。首先使用如离散余弦变换（DCT）或者小波变换这样的傅立叶相关变换，然后进行量化和用熵编码法压缩。
分形压缩：

特性

图像压缩的目的就是在给定位速或者压缩比下实现最好的图像质量。但是，还有一些其它的图像压缩机制的重要特性：

可扩展编码：又称渐进编码、嵌入式位流，通常表示操作位流和文件产生的质量下降（没有解压缩和再压缩）。尽管具有不同的特性，在无损编码中也有可扩展编码，它通常是使用粗糙到精细像素扫描的格式。尤其是在下载时预览图像（如浏览器中）或者提供不同的图像质量访问时（如在数据库中）可扩展编码非常有用，有几种不同类型的可扩展性：
- 质量渐进：又称层渐进，位流渐进更新重建的图像。
- 分辨率渐进：首先在低分辨率编码图像，然后编码与高分辨率之间的差别。
- 成分渐进：首先编码灰度数据，然后编码彩色数据。

感兴趣区域编码：图像某些部分的编码质量要高于其它部分，这种方法可以与可扩展编码组合在一起（首先编码这些部分，然后编码其它部分）。
元数据信息：压缩数据可以包含关于图像的信息用来分类、查询或者浏览图像。这些信息可以包括颜色、纹理统计信息、小预览图像以及作者和版权信息。

压缩方法的质量经常使用峰值信噪比来衡量，峰值信噪比用来表示图象有损压缩带来的噪声。但是，观察者的主观判断也认为是一个重要的、或许是最重要的衡量标准。

参见

参考文献

Jian-Jiun Ding, “Advanced Digital Signal Processing”, NTU, 2021.

查论编计算机科学的主要领域
注：该模板大致遵循ACM 电脑分类系统。
计算机硬件	印刷电路板外部设备集成电路超大规模集成电路绿色计算电子设计自动化
系统架构组织	电脑系统架构嵌入式系统实时计算
网络	网络传输协议路由网络拓扑网络服务
软件组织	直译器中间件虚拟机器操作系统软件质量
软件符号和工具	编程范型编程语言编译器领域特定语言软体框架集成开发环境软件配置管理函式库
软件开发	软件开发过程需求分析软件设计软件部署软体维护开源模式
计算理论	自动机可计算性理论计算复杂性理论量子计算数值计算方法计算机逻辑形式语义学
算法	算法分析算法设计算法效率随机化算法计算几何
计算数学	离散数学信息与计算科学统计学数学软件数理逻辑集合论数论图论类型论范畴论信息论数值分析数学分析
信息系统	数据库管理系统电脑数据企业信息系统社会性软件地理信息系统决策支持系统过程控制数据挖掘数位图书馆系统平台数位行销万维网信息检索
安全	密码学形式化方法入侵检测系统网络安全信息安全
人机交互	计算机辅助功能用户界面可穿戴计算机普适计算虚拟现实聊天机器人
并发性	并发计算并行计算分布式计算多线程多元处理
人工智能	自动推理计算语言学计算机视觉进化计算专家系统自然语言处理机器人学
机器学习	监督式学习无监督学习强化学习交叉验证
计算机图形学	计算机动画可视化渲染修饰照片图形处理器混合现实虚拟现实图像处理图像压缩实体造型
应用计算	电子商务企业级软件计算数学计算物理学计算化学计算生物学计算社会科学医学信息学数字艺术电子出版网络战电子游戏文字处理器运筹学教育技术学生物信息学认知科学文件管理系统（英语：Document management system）
分类主题专题维基共享