基于极限机器学习的一种高效交通标识识别方法
摘要
本文提出了一种高效的交通标志识别(TSR)方法,此方法包括两个模型:1、方向梯度变异特征提取(HOGv)模型2、采用极限机器学习(EML)的单层分类训练器模型。本文所提出的方向梯度变异特征提取(HOGv)模型在冗余度和局部细节方面取得了很好的平衡,使得它能够更好地代表特殊的形状。单隐藏层前馈网络基于极限机器学习(ELM)算法,输入层与隐藏层之间的连接同时实现了随即特征映射并且保证只有隐藏层和输出层之间的权重得到了训练。因此本模型不需要逐层调优。同时输出权重的标准又包含在成本函数当中。因此,基于极限机器学习(ELM)的分类器可以得到多类别的交通标志识别(TSR)问题中的广义最优解。更进一步地,它还能平衡识别精度和计算成本。包括德国交通标志识别(TSR)基准数据集、比利时交通标志分类数据集和修订后的交通基础设施状态数据集(MASTIF)等三个数据集被用于评估本文提出的交通标志识别(TSR)方法。实验结果表明,该方法不仅具有较高的识别精度,而且在这三种方法的训练和识别过程中都具有极高的计算效率。
关键词: 极限机器学习;方向梯度变异特征提取(HOGV);交通标志识别(TSR)
Ⅰ介绍
交通标志识别(TSR)技术在实际应用场景下具有巨大的潜力,例如辅助驾驶系统,自动驾驶汽车,移动机器人。最大的优势在于它能够实时提供道路的交通标志信息。
特征标识是交通标识识别(TSR)中的研究重点之一,为了便于驾驶员阅读和判别,交通标志总是被设计成特定的形状和颜色,这样的标识相对于背景图像来说是相当明显的。例如,停止标志是一个八边形中间写着醒目的 “stop“。然而,设计一些受干扰的条件下的特征是一件十分困难的事情,如恶劣天气,遮挡、视点变化、旋转和标志损坏(如图1)。一些在提取特征方面具有良好鲁棒性的技术如方向梯度(HOG)在TSR领域中被广泛运用。为了标识更多的局部细节信息,HOG特性中的每个单元都分别在其相邻块上进行了标准化。这可能导致具有更多维度的特性表示,但是这种表示是冗余的,会降低后续的分类性能。因此,如何在冗余度和局部细节之间保持良好的平衡,是设计交通标志特征表示的一个具有挑战性的问题。
图1 在恶劣天气、视线变化、旋转和损伤等受干扰环境下的交通标志
在现实世界中有各种各样的交通标志,例如在德国TSR基准数据集中包含多达43类的交通标志,如何分类是TSR中另一个重要因素。有许多支持分类的算法如支持向量机,随机森林等,然而由于其潜在的二元分类机制,这些方法不得不面对正样本数和负样本数之间的不平衡的问题。所以,如何设计一个分类器来获得多类TSR的最优广义解是第二个具有挑战性的问题。
最近,一些深度神经网络(DNN),如卷积神经网络(CNN)被用来自动学习交通标志的特征表示。这些DNN算法将特征提取和分类结合成一个统一的神经网络。它们表现出了很高的识别精度。然而,DNN的特征学习机制不能保证恶劣条件下识别的鲁棒性,例如旋转和缩放,除非训练样本能够尽可能覆盖各种观测条件。此外,它们在训练和识别过程中的计算成本都很高。除此之外车辆是处于高速行驶状态中的,不仅仅是识别精度,对识别的速度也需要考虑。因此,不管人工设计的特征还是自动学习的特征,如何在保持计算效率的同时提识别、精度和鲁棒性是TSR面临的第三大挑战。
本文提出了一种有效的TSR方法。该方法首先提取交通标志的各种HOG特征,然后使用一种极限学习机(ELM)算法进行分类。该方法的目标是在识别精度和计算速度之间取得良好的平衡。
与原始的HOG描述符相比,本文提出的HOG变式(HOGv)有两个改进之处,1、将梯度的对比度敏感方向和对比度不敏感方向都包括在内,以便在累积的直方图中包含更详细的局部信息。2、将每个单元的方向直方图分别在其相邻的四个块上进行归一化后,根据主成分分析(PCA)之类的策略对该单元的这些归一化直方图进行降维处理,以去除冗余信息。因此,HOGv特性可以解决前面提到的第一个问题。
极限机器学习(ELM)是一种单隐含层前馈神经网络学习算法,ELM算法的第一个优点是输入层与隐含层之间的权值是随机分配的。也就是说,输入层和隐藏层之间的连接实现了一个随机的特征映射。因为只训练隐藏层和输出层之间的权值,所以不需要逐层调优。第二个优点是成本函数中输出权值的泛化性得到了提升。基于这两个优点,ELM算法可以得到分类识别问题的最优广义解。另外,利用自编码技术可以方便地将ELM扩展到多层网络或多层深网。ELM还被用于对局部接受域进行建模和对大数据进行表征性学习。因此,将ELM用于TSR可以更好地解决前面提到的第二个问题。
此外,由于输入权值是随机分配的,ELM算法还可以降低训练的计算成本。由于只有一个隐含层,识别过程的计算速度也很快。因此,对于上述第三个问题,将ELM算法与HOGv特征相结合,可以在识别精度与计算效率之间取得良好的平衡。
本文的其余部分按照如下方式组织:第二节回顾了TSR的相关工作;第三节介绍了该方法的框架;第四节和第五节分别详细介绍了HOGv特征的提取和基于ELM的分类;第六节显示实验结果。
Ⅱ相关工作
在过去的十年中,有许多关于TSR的研究被报道。一个TSR系统基本上包括以下三个模块1、数据预处理2、特征提取3、分类。
数据预处理是提高特征鲁棒性和识别精度的一个非常有用的过程。因此,人们提出了各种预处理方法。为了应对光照变化和高对比度变化的场景,一些方法对RGB色彩空间或灰度空间中的输入图像进行归一化处理,而另一些方法则将输入图像从RGB色彩空间转换为HSV色彩空间。最近,一些类型的转换,例如对训练图像进行平移、旋转、缩放等处理,以提高特征提取和识别的鲁棒性,使变换后的训练图像能够覆盖更多的观测条件。
人们已经为TSR提出了许多人为设定的特性。由于交通标志在形状的显著性,基于梯度或方向能量统计的特征被广泛用于表示交通标志,如HOG、尺度不变特征变换(SIFT)和Gabor特征。HOG和SIFT特征都是通过累加方向梯度来提取的。不同的是HOG在每个块附近累加,而SIFT在每个关键点附近累加。由于使用了梯度作为特征单元,HOG和SIFT在不同光照条件下所提取到的特征都具有很强的鲁棒性。由于SIFT所提取的特征是分散的,所以它存在由于图像关键点数不同而导致的维数不一致的问题。此外,基于统计方法的灰度特征,如局部二值化方法,也被用于描述交通标志的特征,这类方法具有很强的辨别能力。为了使这些方法互补,人们还提出了一些不同特征的组合,但是组合将导致图像具有更多维数的特征,因此人们又想了一些办法来降低维数。最近,一些方法使用编码技术对上述基本局部特征进行量化,例如,先将图片的位置约束线性编码,然后使用池技术将这些编码的特征连接到整个图像的全局特征表示中。
在分类方面,以二进制支持向量机(SVM)为基础分类器的一对多策略被广泛应用于TSR。其他的多类识别技术也被应用在TSR当中,例如反向传播神经网络(BP-NN)和K-d树。BP-NN计算量大、容易陷入局部最优。K-d树在识别过程的计算速度上与其他最先进的方法表现近似,但是识别精度不是很高。随机森林算法被进一步用于TSR。该方法精度较高,但计算量较大。人们针对TSR提出了一种基于支持向量机的双层分类系统。该系统提高了识别精度,但增加了识别时间。ELM在我们之前的工作中也被用于TSR。与我们之前的工作相比,本文有两个改进,一是提出了HOGv特性,二是进一步使用核 ELM作为分类器。
CNN作为DNN的代表,近年来在TSR中得到了广泛的应用,并表现出了令人印象深刻的识别精度。特征提取和分类被结合到一个多层神经网络当中,使得这个网络能够直接从输入图像中学习特征,而不是手工编码。为了提高识别精度,研究人员进一步提出了一种由20个CNN组成的集成分类器。然而,这些基于DNN的方法有大量的调优参数,这导致训练分类器的成本极高。同时,由于CNN的多隐含层结构,识别所需要的算力也很高。最近,人们提出了一种先利用CNN学习特征,然后利用ELM作为分类器的方法。与CNN方法相比,该方法计算时间短,具有更好的效果。
Ⅲ方法架构
图2展示了本文所提出的TSR方法的框架。该方法包括两个连续的模块:一是特征提取模块,二是ELM模块。每个被用于训练和测试的图像都是一个交通标志实例。在特征提取模块中,每一个一个输入图像对应一个HOGv特征向量。第四节详细介绍了HOGv特征提取的过程。ELM模块是一个由SFNN组成的交通标志分类器。
图2 本文所提出的TSR方法架构
该方法分为两个阶段:一是训练阶段,二是识别阶段。训练阶段采用ELM算法,对所有训练图像在批量学习模式下的SFNN输出权值进行估算。ELM算法允许在隐藏节点上进行两种操作:点积操作与核操作。因此,本文将相应的训练算法分别记为ELM和核 ELM。ELM随机分配输入权值,而核ELM随机分配一组核。训练输入包括一个特征矩阵X,其中X的行是训练图像的特征向量以及一个类标签向量Y,X中每个列表示训练的图像属于哪个符号类。然后,将X和Y输入ELM模块,对SFNN进行训练,使其压缩43类交通标志。训练过程的细节见第五节
在识别阶段,训练好的ELM模块为每一个测试图像的HOGv特征R输出类标签
ⅣHOGv特征提取
如图3所示,HOGv描述符的提取包括五个步骤:A、图像预处理;B、梯度累积;C、归一化;D、降维;和E、连接
图3 HOGv特征提取
- 图像预处理
输入的图像进行了以下预处理
1使用双线性插值法将图像缩放到w*h个像素
2将缩放后的RGB图像转化为灰度图像
3对灰度图像进行伽马校正。
- 梯度累积
对于大小为wtimes;h的预处理后的图像,首先将其划分为不重叠的单元,每个单元为ktimes;k像素。因此,一个单元格的索引可以表示为(p, q),其中0le;plt; w/k, 0le;qlt; h/k。对于每个单元,根据梯度方向累积出两个直方图,单元中的每个像素被映射到相应的直方图中。一个直方图表示为C(p, q),它由7个分区从0°到180°。另一个直方图表示为D(p, q),它由14个分区从0°到360°.可以看出,这些直方图既包括对比度敏感梯度方向,也包括不敏感梯度方向。因此,这些标志的更详细的局部信息也被包括在这些直方图当中。
- 归一化
为了包含更多的相邻信息,将2times;2个单元分组成一个块。这些块是重叠的,它们的间距步长是k像素。对于每个单元格,使用以下两个步骤对直方图进行规范化。
1、该单元的块的梯度能量测量。
2、使用此方法对该单元格的直方图进行归一化处理。
由于每个单元格同时属于除了图像边缘单元格之外的四个相邻块,因此使用上述例程进行四次规范化。直方图C (p, q)和D (p, q)单元的索引(p, q),分别表示和估计如下:
(1)
(2)
因此,可以使用(3)对单元(p, q)的C(p, q)和D(p, q)直方图进行归一化,得到一个特征表示矩阵F(p, q),共4times;(7 14)= 84维。需要注意的是,对于图像边缘中的单元格,忽略了归一化操作,只对图3所示的红色框中的单元格进行归一化操作
(3)
- 降维
采用一种类似于pca的策略来减少84维特征表示的冗余信息。这个约简运算符由21个列和和4个行和组成。一列的总和获取了空间邻居上相应方向的整体梯度能量。在配置方面,由于从0°到180°的7个分区和从0°到360°的14个分区在一个特征表示F(p, q),总共有21列。行总和获取包含单元(p, q)在方向上的块的总梯度能量。由于每个单元(p, q)有四个相邻块,所以总共有四个行和维度。因此, 最后每个单元的特征向量F(p, q)具有25个维度
- 连接
将每个块中2times;2个单元的单元特征向量叠加在一起,形成每个块的高维特征向量,称为块特征向量。由于块在空间上是重叠的,基于块的特征向量可以联合编码更多的邻域信息。将图像中所有基于块的特征向量连接起来,最终形成一个HOGv描述符x。
Ⅴ极限机器学习训练和识别
- 极限机器学习分类器
极限机器学习(ELM)基本上是一个训练SFNN的机器学习算法。
输入层连接到输入交通标志图像的特征向量x(即(HOGv描述符)。x的维数表示为p
在隐藏层,隐藏节点的数量标记成L。以i为索引的隐藏节点输出表示为g (x; wi, bi) = g (x·wi bi) ,g是激活函数 ,wi是输入层和隐含层之间的权向量,bi是这个节点的偏置量,i= 1 hellip;L。输入层与隐含层之间的连接实际上是一个p维空间到l维空间的特征映射函数。给定一个输入特征x,其映射的特征向量可以表示为
(4)
当激活函数g是一个非线性分段连续函数时,可以满足普遍逼近。本文采用(5)所示的sigmoid函数作为激活函数
(5)
在输出层,输出节点的数量记为M, M等于交通标志类的数量,即每个输出节点表示一个交通标志类。第i个隐藏节点和j输出节点之间的输出比重由beta;i, j, j = 1 hellip;M来表示。输出节点j的值可以计算为
(6)
因
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236224],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。