使用加权动态时间整经的骨架数据的手势识别外文翻译资料

 2022-12-09 03:12

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


使用加权动态时间整经的骨架数据的手势识别

Sait Celebi1, Ali S. Aydin2, Talha T. Temiz2 and Tarik Arici2

1土耳其伊斯坦布尔伊斯坦布尔Sehir大学自然与应用科学研究科

2伊斯坦布尔Sehir大学电气工程系工程与自然科学学院,伊斯坦布尔,土耳其

{fsaitcelebi,aliaydin,talhatemizg}@std.sehir.edu.tr, tarikarici@sehir.edu.tr

摘要

关键词:手势识别,动态时间扭曲,Kinect

摘要:随着微软在2010年推出Kinect,并在2011年发布了Kinect SDK,众多应用和探索人机互动新方式的研究项目已经实现。 手势识别是人机交互应用中常用的技术。 动态时间扭曲(DTW)是一种模板匹配算法,是手势识别技术之一。 要识别手势,DTW扭转联合位置的时间序列以引用时间序列并产生相似性值。然而,所有身体关节在计算两个序列的相似性方面不是同样重要的。 我们建议一种加权的DTW方法,通过优化判别比来对关节进行加权。 最后,我们展示了我们提出的关于传统DTW和现有技术的加权DTW的识别性能。

引言

与使用人体运动的电脑进行交互常用于人机交互(HCI)应用。一种融入人类的方式运动进入HCI应用程序是使用预定义的一组人的关节运动,即手势。手势认可一直是积极的研究领域(梁先生和Ouhyoung,1998; D.Gehrig和Schultz,2009;Reyes等,2011; Wilson和Bobick,1999),和涉及最先进的机器学习技术以及在不同环境下可靠工作的能力。已经提出了各种方法手势识别,范围从使用动态时间扭曲(Reyes等人,2011)到隐马尔科夫模型(D.Gehrig和Schultz,2009)。 DTW测量两个时间序列之间的相似性可以通过对不同采样率的源进行采样或通过记录以不同速度发生的相同现象来获得(Wikipedia,2012)。例如,DTW用于语音识别以及时扭曲语音以能够应付不同的发言速度(Amin和Mahmood,2008;Myers,1980)。 DTW也用于数据挖掘和信息检索来处理与时间有关的数据(Rath和Manmatha,2003; Adams等人,2004)。在手势识别,DTW时间观测身体关节的运动顺序预先存储手势序列(Rekha等,2011; Wenjun等,2010)。传统的DTW算法基本上是a动态编程算法,其通过添加每个序列的两个序列的映射元素之间的距离来使用DTW成本的递归更新递归步骤两个元素之间的距离通常是欧几里得距离,这给出了与序列样本的所有维度相等的权重。但是,根据问题加权在评估测试序列和参考序列之间的相似性时,距离可能会更好。例如在典型的手势识别问题中,在手势中使用的身体关节可以从手势变化上课到手势课。因此,并非所有的关节都是平等的重要的是承认手势。我们提出一种使用的加权DTW算法成本计算中的加权距离。该选择权重以最大化判别基于DTW成本的比例。权重取决于依赖于的参数模型手势类中的联合活动如何。该模型通过最大化判别比来优化参数。通过这样做,一些关节将被加权且一些关节将被加权以最大化类间差异并最小化类内方差。因此,手势的无关关节类(即不涉及手势的部分课程)将在较小程度上贡献其DTW成本,但在同一时间之间的差异将会保持大。

我们的系统首先提取身体关节特征一组由六个关节位置组成的骨骼数据,分别是左手和右手,手腕和脚踝。 我们已经观察到,我们的训练集中的手势具有非常不同的运动模式,需要使用这六个关节的全部或一部分只要。 这些功能从骨架框架获得随着时间的推移而累积,并用于通过与预先存储的参考序列匹配来识别手势。 然后通过将测试序列分配给参考序列来执行匹配最小DTW成本。 DTW对齐两个序列通过加速或加快一个序列的时间及时的。

图1:Bellman原理中使用的前导节点。

背景

HMM是序列数据的统计模型(Baum等人,1970; Baum,1972),因此可以用于手势识别(D.Gehrig和Schultz,2009)(Starner和Pentland,1996)。 隐藏HMM的状态,从训练数据中学习状态转移概率。 然而,定义手势的状态不是一件容易的任务,因为手势可以由不同关节的复杂交互形成。 此外,学习模型参数,即转移概率,需要大量的训练集,这可能并不总是可用。 另一方面,DTW不需要培训,但需要良好的参考序列来对齐。 接下来,我们将详细讨论DTW。

2.1动态时间扭曲

DTW是一种模板匹配算法,用于从参考模式中找出测试模式的最佳匹配,其中模式表示为时间序列的测量或特征。

令r(i); i = 1; 2; :::; I和t(j); j = 1; 2; :::; J分别为参考和测试向量序列。 目的是通过非线性映射(翘曲)在时间上对齐两个序列。 这样的扭曲是下面给出的有序集的元组

(i0; j0);(i1; j1); :::;(i f; j f);

其中tuple(i; j)表示r(i)到t(j)的映射,f 1是映射的数量。 相对于距离函数d(i; j),r和t之间的映射的总成本D被定义为映射的序列元素之间的所有距离的总和。

(1)

其中d(i; j)测量元素r(i)和t(j)之间的距离。映射也可以被视为大小为Itimes;J的二维(2D)网格上的路径,其中网格节点(i; j)表示r(i)和t(j)之间的对应关系。2D网格上的每个路径与(1)中给出的总成本D相关联。 如果路径是由...定义的完整路径

(2)

那么完整的路径将整个序列r和t对齐。2D网格上的最小成本路径是两个序列之间的最佳对齐。找到最低成本路径的一种方法是测试从左下角到右上角的每个可能路径。

然而,这具有指数级的复杂性。动态规划通过利用贝尔曼的原理来降低复杂性(Bellman,1954)。贝尔曼的最优原则指出,从起始网格节点(i0; j0)到结束节点(if; jf)到中间点(i; j)的最优路径可以表示为从(i0; (i; j),以及从(i; j)到(if; jf)的最优路径。这意味着如果给出从(i0; j0)到(i; j)的最优路径,我们只需要搜索从(i; j)到(if; jf)的最优路径,而不是搜索从(i0; j0)到(if; jf)。

我们来使用贝尔曼的原理来计算总成本。如果我们用Dmin(ik; jk)表示节点(ik; jk)的最小总成本,则通过Bellman原理,可以通过使用前导节点的成本来计算Dmin(ik; jk),即ik- 1; jk-1s,如下

(3)

其中ik-1 2 fik -1; ikg和jk-1 2 f jk -1; JKG。

由于所有元素都按时间排序,所以前一个节点的集合在当前节点的左侧和底部。最后,对齐两个序列的最小成本路径具有成本Dmin(if; jf),并且测试序列与具有最小成本的参考序列匹配在所有参考序列中。

虽然公式(3)输出两个序列之间的最小成本,但它不输出最优路径。找到最适合的路径

将测试序列元素映射到引用序列元素,需要从最终节点开始追溯最优路径。如果整个测试序列要映射到整个参考序列,则(i f; j f)=(I; J)。使用DTW计算中的加权方案已经提出了手势识别(Reyeset al。,2011)。 (Reyes等人,2011)中提出的方法使用DTW成本来计算各种类别之间和之间的变化,以找出每个身体关节的重量。这些权重是在身体关节仅计算一个权重的意义上的全局权重。然而,我们提出的方法计算每个身体关节和每个手势类的权重。这提高了DTW成本的辨别力,因为在一个手势类中活动的关节在另一个手势类中可能不活跃。因此,权重必须相应调整。这有助于特别处理课堂内的变化。为了避免减少类间差异,我们使用依赖于身体关节活动的参数模型优化判别比来计算权重。在下一节中,我们讨论数据采集和特征预处理。

数据采集和特征预处理

我们使用Microsoft Kinect传感器(Shotton等,2011)获得联合位置。 Kinect SDK实时跟踪图2中给出的20个身体关节的3D坐标(每秒30帧)。 由于机器学习算法使用深度图像来预测关节位置,所以骨骼模型对于颜色,纹理和背景是相当鲁棒的。

我们已经观察到,20个关节中只有6个有助于识别手势:左手,右手,左腕,右腕,左肘,右肘。 特征矢量由这六个关节的三维坐标构成,如下面给出的尺寸为18

(4)

图2:Kinect关节

其中n是在时间tn的骨架帧的索引。 手势序列是N个这样的特征向量的级联。

在N个特征向量连接以创建手势序列之后,它们在DTW成本计算之前被预处理。 该预处理阶段消除了由于人的尺寸或其在相机的视野中的位置而导致的特征向量的变化。

首先,所有特征向量都与左肩和右肩之间的距离进行归一化,以解释由于人的大小而引起的变化。 第二个归一化之后是从fn中的所有元素中减去肩中心,这说明用户不在深度图像的中心的情况

加重DTW

常规DTW通过基于基于样本的距离对准两个序列来计算两个时间序列之间的不相似性。 如果序列样本是多维的(用于手势识别问题的18维),则使用欧氏距离给予所有维度相同的重要性。 我们建议在成本计算中使用加权距离,基于身体联合对特定手势类的相关性。 相关性定义为联合对该手势类的运动模式的贡献。 为了推断联合对手势类的贡献,我们在训练有素的用户执行该手势期间计算其总位移:

(5)

其中g是手势索引,j是联合索引,n是骨架帧号。 Dist j()使用手势g的两个连续特征向量fg n和fg n-1计算关节j的位移。

在计算总位移之后,我们滤除噪声(例如颤抖,颤抖),并从底部和顶部阈值。 这可以防止我们的参数权重模型输出太高或较低的权重,如下所示

Dgj =8gt;lt;gt;:Da if 0 le; Dgj lt; T1Dgj-T1
T2-T1 (Db -Da) Da if T1 le; Dgj lt; T2Db otherwise,(6)

其中Da和Db是阈值。使用关节的总位移值,计算类别g的权重通过

wgj=1-e-bDgjsum;k_x0010_1-e-bDg k; (7)

其中wgj是手势类g的联合j的权重值。

注意,在这个表达式中,关节的权重值可以根据手势类而改变。 例如,对于右手俯卧撑手势,人们期望右手,右肘和右腕关节具有较大的重量,但是对于左手俯卧撑姿态来说,具有较小的权重。

为了将这些权重纳入成本,方程式中的距离函数d(ik; jk) (3)被定义为

dg(ik; jk) = sum;hDisth(fg ik;f jk)wg h; (8)

其给出第k个对齐对之间的距离(r(ik),t(jk)),其中r是已知为摄取类g的序列,t是未知测试序列。权重从(7),其具有单个参数b。我们的目标是选择一个b值,使班级间变化最小化,同时班级间差异最大化。可以通过使不相关的关节对成本贡献较小(例如,在左手握手手势中减少右手的权重)并且不减少(或可能增加)权重来实现班级间变化最大化和班内变化最小化的关节,可以帮助区分不同的手势。我们尝试通过最大化与Fishers判别比率相似的判别率来实现这一目标(Kim等,2005)。

首先,我们将Dmn(b)定义为使用给定b计算的权重作为手势类m和手势类n的所有样本之间的平均加权DTW成本。

那么班级之间的差异是所有的(B)的平均值:

DB(b) = sum;msum;n6Dmn(b): (9)

类内不相似性是所有类别g的样本序列的平均DTW成本。 鉴别比(R)由

R(b)= DBDW;(10)

其中b是找到DTW成本计算中使用的权重的模型参数。 选择最优的b,b *,使其最大化:

b * = argmaxbR(b):(11)

结果 剩余内容已隐藏,支付完成后下载完整资料


资料编号:[27688],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。