面部表情识别的特征空间与分类方法的比较研究外文翻译资料

 2022-12-07 05:12

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


面部表情识别的特征空间与分类方法的比较研究

Ching-Chih Tsai, Zeng-Ruei Wu, Zen-Chung Wang, Ming-Feng Hisu

摘要

面部表情识别(FER)对机器人和计算机实现人与自然交互来说非常重要。多年来,研究者为了实现面部表情自动识别系统已经提出了不同的特征,采用不同的分类方法,并进行了不同的数据集上的测试实验。在实现良好性能的同时,由于缺乏比较研究,我们尚不清楚最有效的特征空间和分类方法。但我们对计算机视觉领域五种普通的特征空间进行了全面的比较实验,并且提出对于四种独特的面部表情的其中分类方法。我们在这项工作的主要研究包括:(1)确定面部识别中最有效的特征空间,(2)研究图像分辨率的影响对FER性能的影响;(3)利用AdaBoost算法的特征选择和图像分类的支持向量机获得最佳的FER性能。

一、引言

人脸表情识别(FER)是用机械眼或数码相机识别人的面部表情的过程。通过使用FER,社会或服务机器人将有更好的理解人类的意图,从而实现更自然的人机交互。FER系统在医学应用中也非常有效,如为辅助面瘫患者在康复治疗提供治疗。

FER系统设计具有挑战性,比如我们需要考虑年龄、姿态、光照、遮挡问题。研究人员已经为机器人/计算机提出了各种技术来实现自动识别面部表情。开发过程通常包括训练数据的采集、特征提取、分类器设计和测试实验。我们的目标是通过不同的特征空间和分类方法分析面部表情图像,从而进行全面的比较研究。

二、相关作品

为图像表示寻找合适的特征描述符是解决模式识别问题的关键任务之一。Gabor特征描述符[1]是一种最常见的特征描述符,并且已经与用于FER[2]-[5]。Haar特征描述符[6]也非常受欢迎,别且也已经应用在FER中[7][8]。除了Gabor和Haar特征描述符,局部二进制模式(LBP)[9]和梯度直方图(HOG)[10]特征描述符得到重视,并且也应用在了FER中[11][12][13][14]。据我们所知,Fern特征描述符[15]也在图像匹配方面也非常强大和高效,但从未应用于FER。正如我们很快将在第五节发现的,Fern特征描述符达到了相对较高的测试精度,同时消耗非常小的计算成本。

支持向量机(SVM)[16]已被广泛应用于到FER中[3]-[5],[7],[11]-[14]。据报道,与径向基核函数[3]-[5]相比,线性核的SVM产生类似的测试精度,说明如Gabor和Haar滤镜的特征描述符在将原始空间转变为更高线性可分级别空间方面非常有帮助。在应用SVM时,这个概念类似于内核技巧。利用特征提取和RBF核函数都可能导致冗余,因此可能无法提高测试精度。另一方面,由于其强大的性能,自适应提升(AdaBoost)[17]也是非常常用的面部表情图像分类[4][5][8]和特征选择[5][7][11],神经网络方法也一直在探索中[?][2]。如果有足够的训练数据和时间,现代分类也可以取得令人满意的测试结果。然而,由于缺乏比较研究,最佳的特征空间和在不同的面部表情数据集下的分类方法仍然是未知的。

三、特征空间

  我们的目标是为面部表情识别(FER)在测试精度和计算效率方面确定最佳的特征空间和最好的分类方法。我们简要地介绍了每个特征空间,并总结各自的优势。

A. Gabor特征空间

  图1说明了二维Gabor滤镜的几个例子[18],其中第一行显示滤镜频率的增加,第二行显示过滤器的不同取向。在数学上,Gabor滤镜简化公式如(1)和(2)所示,涉及空间,空间频率(),方向(),振荡相位()。

图1:Gabor滤镜的例子。第一和第二行显示了越来越高的频率和不同方向的滤镜

图2:Haar滤镜实例。五行显示在实验研究中使用的不同类型的Haar滤镜

  在我们的实验中,我们遵循文献[4],设置空间(),在的像素范围内,使用8个方向(取0°,22.5°,45°,67.5°,90°112.5°,135°,157.5°)和5个空间频率(取,,,,像素每周期)。高斯函数的椭圆率()设为1,震荡相位()设置为0。高斯函数的标准差()根据(3)中由神经科学家建议的半响应的空间频率带宽规则进行设置,其中Gabor函数的带宽()设为。

B. Haar特征空间

Haar滤镜[6][19]是一种简单的矩形滤镜,可以定义为黑白区域的强度之差的筛选器。它具有简洁的关键优势。结合积分图像的方法,Haar滤镜可以实现显着的快速性能并且使实时人脸检测成为可能[19]

我们根据文献[19],在FER试验中使用相同的一组Haar滤镜。图2表明5种我们使用的Haar滤镜,5列分别显示1,2,3,4,5号滤镜不同的大小和不同的位置。我们限制了黑白相间的单一区域有相同的尺寸,我们增加了黑色和白色区域 2像素的宽度。结果,我们在的图像上得到162336个可能的Haar滤镜。

C.局部二进制模式(LBP)特征空间

与Gabor滤镜相比,LBP具有计算简单性和对光照变化鲁棒性的有点。LBP编码如每个像素中边缘,线条和斑点局部模式信息。方程(4)和(5)总结了紧凑型的编码过程,同时图3说明了编码程序的一个详细的算子。

图3:的编码程序。其中代表邻居的数目,代表中心像素点和相邻点之间的半径距离

算子产生种可能的二进制模式。Ojala等人发现90%的二进制模式是一样的(当考虑二进制模式循环时,最多只包含两位变化,从0到1或者反过来),并且提出将所有非均匀分布模式聚集到单仓中[9]。因此,原个网格点减少到59个网格点(P=8,R=2时58个二进制模式是一致的模式)。在我们的面部表情实验中,我们也遵循这一共同的类似于文献[11]中的面部表情研究中的规则。

在LBP编码每一个像素之后,在像素范围内的LBP值将以直方图的形式储存。每个单元以滑动窗口的方式从左上角移动到右下角移动3个像素。所有的直方图是最终连接成一个一维特征向量。

D.梯度直方柱状图(HOG)特征空间

与尺度不变特征变换特性(SIFT)相似,HOG[10]表示密集的图像编码,并具有一些不同的实施细节,如直方图个网格点的数量和图像块大小[10]。HOG特征可以归纳为以下五个步骤:

  1. 梯度计算——图像非常复杂,一维Sobel滤波和分别形成水平和垂直梯度图。
  2. 幅度和方向计算——从水平和垂直梯度图计算大小和方向图。
  3. 图像分割——将像素的人脸图像分成个单元,其中每个单元的大小为像素。
  4. 量化——每个单元的方向值量化为9个网格点的直方图形式,其中幅度值代表权重。
  5. 标准化——四个相邻小区形成一个块,每个块有50%与相邻块重叠。每个分块的方向直方图需要局部归一化并且连接成一个一维特征向量。

图4 HOG特征分开单元的形象化

图4(a)举了一个像素的图片的例子;图4(b)显示相应的个单元结构的HOG特征(每个单元的大小为像素);图4(c)显示了个单元结构的可视化HOG的特性(每个单元的大小为像素)。总体而言,在我们的实验中HOG的尺寸为。

E.Fern特征空间

图5 带有Fern特征的人脸描述。五个像素对随机选择。每个像素对的像素强度进行二值测试并将二进制码转换成十进制值。

图5示出了Fern特征的三个计算步骤[15][20]。首先,五个二进制的像素对是随机选择的(没有预先掩蔽或高斯滤波)。其次,二进制像素进行二值测试,其中公式(6)中的和分别是图5中的红圈像素和蓝圈像素的强度值。然后,将五个二进制值转换为十进制值(在公式(7)中)。在我们的研究中,我们重复这个过程10000次,并使用产生的10000种Fern特性进行分类。

四、面部表情数据集

我们对四个独特的面部表情数据集进行了比较研究。用MATLAB的计算机视觉系统工具箱的人脸检测器提取了五个数据集中的所有面容。Bartlett等人发表文献说这与人脸特征校准显示没有显着的性能差异。

  1. Cohn-Kanade面部表情(CK)数据集

Cohn-Kanade面部表情(CK)数据集包括从18-50岁的210位成年人表情图像。参与者被要求在指导者的帮助下进行一系列的面部显示。精心挑选之下,327组数据分离为七个情绪,即“生气”,“轻蔑”(不使用这里),“厌恶”,“恐惧”,“快乐”,“悲伤”,和“惊喜”。每一个序列开始于一个中性的脸,并在特定的面部表情结束。我们选择的第一帧的每个序列作为“中性”图像,用最后三帧的每个序列作为basic-6离散情感意象,结果得到总共1254幅图像(生气:135、恶心:177,恐惧:75,快乐:207,悲伤:84,惊喜:249、中性:327)。

B.多媒体认识组(MUG)数据集

MUG数据库[22]记录了86名在20-35岁之间的白种人的面部表情图像。参与者59%是由名有或无胡须的男性组成。7名参与者戴着眼镜,有些有头发遮挡的。我们已经为我们的比较研究选定了919个面部表情图像(愤怒:157,厌恶:145,恐惧:118,快乐:164,中性:52,悲伤:124,和惊喜:159)。

C.情绪性面孔(KDEF)数据集

KDEF数据库[23]从5个不同的视角记录了140个业余演员表情图像(70名男性和70名女性)。所有的演员年龄20-30岁之间,没有胡子,胡子、耳环、眼镜,大多在拍照期间没有明显的化妆。对于我们的比较研究,我们只考虑正面的图片,最后得到980幅面部表情图像(生气:140、厌恶:140、恐惧:140、快乐:140、中性:140、悲伤:140、惊喜:140)。图6显示了一些KDEF数据集里的示例图像。

图6 情绪性面孔(KDEF)数据集

D.日本女性的面部表情(JAFFE)数据集

JAFFE数据库[24]中包含6种基本表情和1中性面的213个面部图像。所有的面部表情图像都是10位日本女模特的照片。我们使用所有213面部表情图像进行比较研究(生气:30、厌恶:29、恐惧:32、快乐:31、中性:30、悲伤:31、惊喜:30)。

五、对比实验

对于每种方法,我们建立了从七类人脸图像识别人脸的七种一对全的分类。我们采用了常见的投票方式,并最终结合了七个测试结果。例如,“愤怒”分类识别的图像将获得 1点的标签“愤怒”,其他标签将获得-1。同样,同样的图像被“中性”分类认定为负的将得到-1点的标签“中性”,其他标签将获得 1。结合七个测试结果后的最高点的标签将被选为输入图像的最终测试标签。在我们所有的比较实验中,我们进行了10倍交叉验证分析。更确切地说,我们随机选择90%的可用数据进行实验,并使用余下的10%个数据进行测试。我们把这个过程重复了10次,并采取了10个测试结果的平均值和标准偏差。接下来,我们在Gabor,Haar,LBP、HOG和Fern空间各种分类器进行了测试精度。我们从CK 数据库开始讨论,接下来讨论了MUG,KDEF,JAFFE数据集。

图7 CK 数据库中七种分类方法下六种特征空间的测试精度比较

图8 MUG数据库中七种分类方法下六种特征空间的测试精度比较

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[32241],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。