doi: 10.7690/bgzdh.2013.02.017

# 基于 FPGA 的 La Gell 5/3 小波变换的硬件电路设计

侯宏录,姚恩源

(西安工业大学光电工程学院,西安 710021)

摘要:为了对冗余的图像数据进行有效的压缩,提出一种基于 FPGA 的快速小波变换的方案。介绍了 La Gell 5/3 提升小波变换的原理,设计了适用于高帧频 CMOS 相机的 La Gell 5/3 提升小波变换硬件结构,采用 Verilog 硬件语 言在 QuartusII 软件平台下对设计方案进行了实验,利用 Matlab 语言对图像进行反变换,并通过变换前与反变换后 图像的比对,验证了算法的可行性。实验结果证明:该方案成功实现了基于 FPGA 的 La Gell 5/3 提升小波变换系统 对给定图像的三级快速小波变换,相比较于 DSP 等硬件电路,更适合于高速图像实时处理的应用。

关键词: La Gell 5/3; FPGA; 提升小波变换; 高帧频相机

中图分类号: TP332 文献标志码: A

# Hardware Circuit Design for La Gell 5/3 Wavelet Transform Based on FPGA

## Hou Honglu, Yao Enyuan

(Department of Optoelectronics Engineering, Xi'an Technological University, Xi'an 710021, China)

**Abstract:** In order to compress the redundant image data effectively, this paper put forwards a fast wavelet transform project based on FPGA. The principle of La Gell 5/3 wavelet transform is introduced, and an appropriate wavelet transform hardware circuit of La Gell 5/3 wavelet transform is designed for the high frame rate CMOS camera. This design is programmed on the QuartusII software platform in Verilog hardware language. The feasibility of the algorithm is verified by comparing the original image to inverse transformed image, which is transformed by Matlab. The experimental result shows that this program successfully realized the three-level fast wavelet transform for a given image through the system of La Gell 5/3 lifting wavelet transform which based on FPGA, and the plan is more suitable for application of real-time high-speed image processing by compared to other hardware circuit such as DSP.

Key words: La Gell 5/3; FPGA; lifting wavelet transform; high frame rate camera

# 0 引言

图像信息在深空探测、遥感、武器系统以及科 学研究等领域有着广泛的应用。随着科技的发展, 对图像获取的分辨率、帧频、记录时间提出了更高 要求。而高分辨率、高帧频、长记录时间产生的大 量图像数据给图像存储与传输带来了巨大压力。比 如在 500 fps 高帧频相机中,分辨率为 1 280×1 024 的图像, 1 s 所输出的图像数据量高达到 1.8 GB。 如果不对这些数据进行处理,系统就无法对图像数 据有效进行存储和传输。由于图像信息的像素与像 素之间,帧与帧之间存在着高度的相关性,或者称 之为冗余,包括时间冗余、空间冗余、知识冗余 等<sup>[1]</sup>;因此,目前解决该问题的有效手段是采用图 像压缩技术,使图像所占空间减小。随着提升小波 变换以及整数小波变换的出现, 使得基于小波变换 的图像压缩算法变得简单实用,更有利于硬件电路 的设计与实现。

小波变换是对任一能量有限或者平方可积信号

表示成小波叠加,1988 年 S.Mallat 提出了多分辨率 分析的概念,给出了离散信号的正交小波的构造方 法以及正交小波变换的快速算法,即 Mallat 算法, 也称为金字塔算法<sup>[2]</sup>。提升的概念是由 Wim Sweldens 首先提出来的,这种算法与 Mallet 相比较 使得变换的运算更为有效,小波系数更加紧凑。 DaubehceiS 和 Sweldnes 己经证明所有能够用 Mallat 算法实现的小波变换都可以用提升算法来实现<sup>[3]</sup>, 提升算法属于第二代小波。基于以上 2 方面的原因, 笔者结合某项目高帧频 CMOS 相机存储与传输系 统的设计需求,采用 La Gell 5/3 提升小波变换原 理,提出一种基于 FPGA 的快速小波变换的方案, 成功实现了基于 FPGA 的La Gell 5/3 提升小波变换

## 1 Le Gall 5/3 小波变换原理与算法结构

1.1 Le Gall 5/3 小波变换原理与算法

Le Gall 5/3 是 JPEG2000 的标准之一<sup>[4]</sup>,属于 提升小波变换算法,是基于 Mallat 算法中的高通滤

收稿日期: 2012-10-17; 修回日期: 2012-11-21

基金项目:陕西省科学技术研究发展计划项目(2011K06-22)

作者简介:侯宏录(1960—),男,陕西人,博士,教授,从事光电测试、信息融合、复杂系统建模、仿真与作战效能评估研究。

波和低通滤波的思想。小波可以理解为"一小段被 谐波振荡调制的信号波"<sup>[5]</sup>。Le Gall 5/3 小波变换 和 Daubechies9/7 小波变换是 JPEG2000 标准中是 2 个重要的变换, Daubechies9/7 变换具有优良的图像 压缩性能,是图像压缩领域中首选的小波滤波器<sup>[6]</sup>。 但由于用到小数以及较为复杂的计算,并不适合本 设计 500 fps 高速图像处理的设计要求。而 Le Gall 5/3 算法相对简单,容易在 FPGA 中实现。可逆小波 Le Gall 5/3 正变换原理如式 (1)、(2):

$$Y(2n+1) = X(2n+1) - \left\lfloor \frac{X(2n) + X(2n+2)}{2} \right\rfloor$$
(1)

$$Y(2n) = X(2n) + \left\lfloor \frac{Y(2n-1) + Y(2n+1) + 2}{4} \right\rfloor$$
(2)

式中,符号 ]为向下取余。可逆小波 Le Gall 5/3 的反变换,得到式 (3)、(4):

$$X(2n) = Y(2n) - \left\lfloor \frac{Y(2n-1) + Y(2n+1) + 2}{4} \right\rfloor$$
(3)

$$X(2n+1) = Y(2n+1) + \left\lfloor \frac{X(2n) + X(2n+2)}{2} \right\rfloor$$
(4)

实现 Le Gall 5/3 小波变换的步骤包括分裂、预 测、更新 3 个步骤。最后形成小波系数数据流。1) 分裂:通常情况下,首先要把图像数据按归一定的 规则进行分裂,然后再进行预测和更新。Le Gall 5/3 小波变换中的分裂办法是将信息分成奇数列和偶数 列。分裂步骤只需在电路设计时把寄存器的存储顺 序调节适当即可。2)预测:式(1)就 5/3 提升小波 预测步骤的表达式,表述为:奇数样本新值等于奇 数样本旧值减去相邻的左右偶数样本旧值之和的 1/2。3)更新:其原理与运算和预测类似,式(2)是 其原理表达式,表述为:偶数样本新值等于偶数样 本旧值加上相邻的左右奇数样本新值之和的 1/4, 再与常数 0.5 求和。

实际应用中,图像信号存在边界,式(1)、(2)、 (3)和(4)明显缺少边界项,通常可采用边界延拓的 办法来解决。目前常用的边界延拓算法主要有零填 充法、边界元素复制法、周期延拓法、对称延拓法<sup>[7]</sup>。 由于对称延拓不出现边缘失真,也无需大量缓冲器 来保存边界值,适合于高速大容量数据压缩的条件。 对称延拓示意如图1。

| 2   | 1  | 2  | 3  | 4  | 5  | 6  | 7  | 8  | 9  | 10 | 9  |
|-----|----|----|----|----|----|----|----|----|----|----|----|
| 12' | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 19 |
| 22' | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 21 | 29 |
|     |    |    |    |    |    |    |    |    |    |    |    |

图1 图像镜像对称延拓示意

图 1 中右部分是对最后一个偶数元素的对称延

拓,用于预测步骤,用实箭头表示。左部分 2',12', 22'分别是 2,12,22 在预测之后的结果,是对第 1 个奇数元素的对称延拓,用于更新步骤,用虚箭头 表示。

## 2 基于 Le Gall 5/3 小波变换的硬件结构设计

## 2.1 预测硬件结构设计

预测步骤中,每一行(或每一列)的倒数第2个 元素要对称延拓。每次计算时只需要2组数值即可, 外加运算结果的寄存器,结构原理如图2。



图 2 5/3 提升小波变换预测步骤原理

其中, DATA\_IN 为图像数据流输入, DATA\_OUT 为图像数据流输出,信号 CLK\_SP 是分 裂控制信号,如果 CLK=0,则把 DATA\_IN 的值给 寄存器 R<sub>0</sub>,反之,则把 DATA\_IN 的值给寄存器 R<sub>1</sub>。 CRTL1 为延拓使能信号,如果 CRTL1=1,则对最后 一项偶数项的进行延拓,反之,则不延拓。CTRL2 为输出奇偶选择信号,CRTL2=1,则输出计算后新 的奇数项,反之,则输出偶数项。CTRL1、CTRL2 由 CMOS 传感器的数据输出使能信号控制。除以 2 用 右移 1 位来计算。各信号及寄存器的值随 DATA\_IN 输入时钟有如表 1 所示的关系。

表 1 各寄存器及控制信号的真值

| 输入   | 真值     |       |       |       |                |       |       |       |           |  |
|------|--------|-------|-------|-------|----------------|-------|-------|-------|-----------|--|
|      | Clk_sp | $R_0$ | $R_1$ | $R_2$ | R <sub>3</sub> | Ctrl1 | $R_4$ | Ctrl2 | $R_5$     |  |
| 偶数 a | 0      | а     | Х     | Х     | Х              | 0     | Х     | Х     | Х         |  |
| 奇数b  | 1      | а     | b     | Х     | Х              | 0     | Х     | Х     | Х         |  |
| 偶数 c | 0      | с     | b     | а     | Х              | 0     | a+c   | 0     | а         |  |
| 奇数 d | 1      | с     | d     | а     | b              | 0     | a+c   | 1     | b-(a+c)/2 |  |
| 偶数e  | 0      | e     | d     | с     | b              | 0     | c+e   | 0     | с         |  |
| 奇数 f | 1      | e     | f     | с     | d              | 0     | c+e   | 1     | d-(c+e)/2 |  |
| 偶数 g | 0      | g     | f     | e     | d              | 0     | e+g   | 0     | e         |  |
| :    | :      | :     | :     | :     | :              | :     | :     | :     | :         |  |
| •    | •      | •     | •     | •     | •              | •     | •     | •     | •         |  |
| 偶数 y | 0      | У     | х     | w     | v              | 0     | w+y   | 0     | w         |  |
| 奇数 z | 1      | у     | Z     | W     | х              | 0     | w+y   | 1     | x-(w+y)/2 |  |
| Х    | 0      | у     | Z     | У     | х              | 1     | y+y   | 0     | У         |  |
| Х    | 1      | у     | Z     | у     | Z              | 1     | y+y   | 1     | z-(y+y)/2 |  |

表 1 中, X 代表无效值,并假设输入的数据顺序从 a~z 共 26 位。预测最后一个值 z 时 (a 为第 0

项,是偶数项),左边 y 将对称延拓至 z 的右边。输 出端相对于输入端慢了 2 个节拍。

# 2.2 更新硬件结构设计

更新步骤的结构如图3所示。



图 3 5/3 提升小波变换更新步骤原理

如果把图 6 的 DATA\_IN 与图 4 的 DATA\_OUT 相连接,即可完成对二维图像数据的行预测和行更 新步骤。

#### 2.3 列变换硬件结构设计

按照 Mallat 的塔式分解算法,对一幅二维的图像的二维小波变换过程可分解成由行变换和列变换组成的小波变换<sup>[8]</sup>。列变换和行变换原理相同,但列变换必须对整幅图像数据缓存,再按列进行列变换,这样缓存的中间结果数据量大。笔者设计了另一种变换结构,只需要缓存 2 行行变换的结果和 1 行列更新的结果即可。原理如图 4 所示。



图 4 5/3 提升小波变换列变换步骤原理

图 4 中, R 代表寄存器, B 代表缓存器。设计 中共用了 4 个寄存器和 3 个缓存器。

当图像的第1行 a(假设第1行为 a,下同)和第 2行 b分别存入 B<sub>2</sub>和 B<sub>1</sub>,并且 R<sub>1</sub>中装入 c<sub>1</sub>(c行的 第1个元素, c<sub>n</sub>为 c行的最后一个元素,下同)时, 触发预测步骤,运算结果在下一次运算时被装入 R<sub>2</sub>,直到运算最后一行时,作延拓处理。

当  $c_2$  被装入  $R_1$  时,更新步骤触发,  $R_3$ (存入的 为  $a_1$ )与  $R_2$ 的值(被  $Q_2$ 选中)组合完成对称延拓。运 算结果被送至 DATA\_OUT 端。同时  $R_4$ 中装入上一步预测步骤的运算结果(装入的值来自  $R_2$ ),经过时 序控制,在更新步骤输出运算结果,再经过一定时 间间隔,将其送至 DATA\_OUT 端。

当  $d_1$  值被装入  $R_1$  时,  $B_1$  与  $B_2$  中分别存储 c 和

b 行值,此时预测运算结果无效,直到 e<sub>1</sub> 被装入 R<sub>1</sub> 中,把这段空闲时间称为 *T*。更新运算总比预测运 算慢一个节拍,但为了先让偶数行输出,加入寄存 器 R<sub>4</sub>。当更新运算处于无效时,数据输出端也无效。

当 B<sub>1</sub>和 B<sub>2</sub>分别装入最后 2 行值时(假设为 z 行 和 y 行)在预测步骤要对 y 行做对称延拓处理。计算 出预测后的 z 行值,可用于对 y 行的更新。

#### 2.4 多级小波变换

此次设计共采用三级小波变换操作流程图<sup>[9]</sup>如 图 5 所示。经过行变换和列变换图像分成 LL、LH、 HL 和 HH 4 个区。其中 LL、LL1、LL2 区与原图像 最为接近,可进一步变换,提取相关性元素,经过 3 次行列变换实现三级变换。



图 5 三级 Le Gall 5/3 小波变换操作框图

2.5 Le Gall 5/3 提升小波的二维变换



图 6 500 fps CMOS 相机图像压缩与传输系统



图 7 Le Gall 5/3 提升小波二维变换预测和更新单元 综合后的电路

基于上述结构,在 500 fps CMOS 相机图像压 缩与传输系统硬件电路中(图 6),采用 Cyclone V 作为 CPU,周围由 8 片 SDRAM 作为数据缓存模块, 工作频率 800 MHz, CMOS 图像传感器为 CYPRESS 公司的 LUPA 1300-2, 全分辨率下时钟为 315 MHz。 在 QuartusII 软件平台下对上述方案进行了软件设 计,综合之后得到预测电路 RTL 如图 7(a)所示,更 新电路如图 7(b),列变换电路如图 8 所示。





#### 3 系统测试与结果分析

在测试变换时, 先将被测图像(一般为 BMP 格式) 文件转换成 VerilogHDL 能读取的 DAT 文件,将 DATA 文件存入一部分 SDRAM, 采用在 315 MHz 时钟下读出的方法来模拟 LUPA 1300-2 的输出信 号, LUPA 1300-2 输出的是彩色图像,本设计中直 接把 Bayer 分成 3 层, 分别对 3 层图像并行处理, 再同步存储到各自的 SDRAM 中,提高了运算速度。

测试发现从一帧图片输入到变换结束,并存入 SDRAM,需要7430个CPU时钟周期,相当于7.4 μs; 而系统满帧频为500 fps,帧间时间为2000 μs。即 变换时间远远小于帧间时间;因此,该方案可谓后 续的图像压缩提供了充足的时间。



图 9 变换前的图像



图 10 变换后的图像

将某图像输入到硬件电路中,变换前的图像和 经过三级变换后的图像如图 9、10 所示。

将变换后的数据应用式 (3) 和 (4) 作反变换,可 还原出图像。本次实验把变换后的数据通过串口导 入电脑,用 Matlab 对其进行反变换并显示,结果如 图 11 所示。



#### 图 11 反变换后的图像

通过对原图和反变换的图对比可知,反变换后 的图像略微偏暗,用软件逐像素分析发现个别像素 和原来值有所偏差。原因在于 Le Gall 5/3 提升小波 为整数变换,在计算时把小数部分省略了,图像在 还原时有一定的数据损失,但是不影响视觉效果。

# 4 结论

笔者采用 Le Gall 5/3 提升小波变换方法,成功 实现了对图像数据进行基于 FPGA 的小波变换,可 满足分辨率为 1 280×1 024、图像深度为 10 位、帧 频为 500 fps 的图像数据进行实时小波变换,变换效 率高,速度快,为后续图像压缩提供了充足的缓冲 时间。实验结果表明:为了提高变换速度并防止丢 帧,应保证系统时钟频率是传感器时钟频率的 2 倍 以上。下一步,将对列变换时出现了空闲时间 *T* 进 行算法改进,设计出更加合理的硬件电路结构。