基于隐马尔可夫模型的摩洛哥方言语音识别外文翻译资料

 2023-01-15 04:01

Speech Recognition of Moroccan Dialect Using Hidden Markov Models

基于隐马尔可夫模型的摩洛哥方言语音识别

Bezoui Mouaza, Beni Hssane Abderrahima, Elmoutaouakkil Abdelmajida

摘要:

本文介绍了摩洛哥方言自动语音识别系统的开发。阿拉伯语方言(DA)是指阿拉伯世界日常使用的方言。事实上,摩洛哥方言与现代标准阿拉伯语(MSA)有很大不同,因为它深受法语的影响。在所有阿拉伯国家,人们都注意到,标准阿拉伯语被广泛地用于官方演讲、新闻报纸、公共行政和学校,但不用于日常对话,方言在日常生活中被广泛使用,但几乎从未被书写过。我们建议使用Mel频率倒谱系数(MFCC)特征来指定最佳的说话人识别系统。利用矢量量化算法将提取的语音特征量化为若干个质心。这些质心构成了那个演讲者的码本。在训练阶段和测试阶段计算MFCC。说话者在一次训练课和一次测试课上说同样的话。测量训练阶段每个说话人的MFCC到测试阶段单个说话人质心的欧氏距离,并根据最小欧氏距离对说话人进行识别。该程序在MATLAB环境下开发,辨识效果良好。

  1. 导言

以前大部分阿拉伯语ASR的工作都集中在正式的标准阿拉伯语,即现代标准阿拉伯语(MSA)。MSA不是所有阿拉伯国家的普通讨论和一些交流的语言。人们在日常生活中使用其他阿拉伯语变体,称为方言阿拉伯语(DA)。在语音识别研究领域,文献中提出的大多数词汇都是针对MSA的,而专门研究阿拉伯语方言的文献很少。这主要是由于缺乏阿拉伯方言数据[25,10]。每个国家都有自己的方言,有时同一个国家有不同的方言。阿拉伯语ASR的一个重要问题是存在许多不同的方言,例如摩洛哥语、突尼斯语、埃及语[11]、伊拉克语[9]、卡塔尔语[13]和莱文廷语[12、14、15]。而且,不同的阿拉伯语方言都是口语而非正式书面语,具有显著的句法、词汇、形态、语音等方面的差异。在这项工作中,我们建议使用Mel频率倒谱系数(MFCC)特征来设计与声音相关的系统,并指定最佳的说话人识别系统。利用矢量量化算法将说话人提取的语音特征量化为若干个质心。这些质心构成了扬声器的码本[2]。在训练阶段和测试阶段计算MFCC。说话者在一次训练课和一次测试课上说同样的话。测量训练阶段每个说话人的MFCC到测试阶段单个说话人质心的欧氏距离,并根据最小欧氏距离对说话人进行识别。该程序在MATLAB环境下开发,辨识效果良好。

  1. 隐马尔可夫模型

20世纪70年代初引入的隐马尔可夫模型是语音识别问题的完美解决方案,语音的声学信号由一组小的声学单元构成,可以看作是语言的基本声音。传统上,所选择的单元是音素,因此单词是通过连接它们形成的[3]。更具体的单位可以用作上下文中的音节、双音节、音素,从而使模型更具区分性,但这种理论上的改进在实践中受到所涉及的复杂性和估计问题的限制。语音信号可以比作一系列的单位。在Mark ov-ASR的上下文中,声学单元由典型的左右三态HMM建模。HMM的三个假设:有限历史性假设,p(si|si-1,si-2,...,s1) = p(si|si-1);齐次性假设,(状态与具体时间无关)P(si 1|si)=p(sj 1,sj);观测独立性假设,输出仅与当前状态有关,P(o1,...ot|s1,...st) = P(ot|qt)。HMM解决的三个问题:评估问题:已知模型参数lambda;= (A, B,pi;),计算某个观测序列发生的概率,即求P(O|lambda;),即概率计算问题;学习问题:如何调整模型参数lambda;=(pi;, A, B),使得P(O|lambda;)最大?解码问题:给出观测序列O和模型mu;,怎样选择一个隐藏状态序列S(s1,s2,...st 1),能最好的解释观测序列O;隐马尔科夫模型有初始概率分布、状态转移概率分布以及观测概率分布确定,其形式化定义如下:

设Q是所有可能状态集合,V是所有可能的观测的集合

Q={q1,q2,...qN}, V={v1,v2..vM},

其中N是可能的状态数,M是可能的观测数。

I是长度为T的状态序列,O是对应的观测序列。

I=(i1,i2...iT), O=(o1,o2,...,oT),

A是状态转移矩阵:

A=[aij]Ntimes;N

其中

aij=P(it 1=qj∣it=qi), i=1,2,...,N; j=1,2,...,N,

表示的是t时刻处于i​的条件下在t 1时刻状态转移到qj​的概率。

B是观测概率矩阵:

B=[bj(k)]Ntimes;N,

其中,

bj​(k)=P(ot​=vk​∣it​=qj​),k=1,2,...M;j=1,2,...N

是在时刻t处于状态qj的条件下生成观测vk​的概率。

pi;是初始状态概率向量:

pi;=(pi;i​)

其中:

pi;i​=P(i1​=qi​),i=1,2,...,N

所以隐马尔科夫模型lambda;可以用三元符号表示,即:

lambda;=(A,B,pi;)

状态转移矩阵A和初始状态概率pi;确定隐藏的马尔科夫链,生成不可观测的状态序列,观测概率矩阵B确定了如何从观测状态生成观测序列。

  1. 声学模型与参数

语音信号比语言信息还包含许多其他元素:与说话人有关的信息、录音条件等。此外,语音信号的可变性和冗余性使得它很难作为这样的信号使用。因此,有必要提取依赖于语言信息的参数,这些参数通过信号上的滑动窗口进行估计。此分析窗口用于估计所考虑信号的平稳部分上的信号:通常10到30 ms,通过Hamming窗口限制信号的副作用和不连续性。在我们的实验中,我们使用25毫秒作为窗口大小。大多数参数表示频谱及其在窗口大小上的演变。最常用的参数化技术有:PLP感知线性预测:谱域,LPCC线性预测倒谱系数:时域,MFCC-Mel频率倒谱系数:倒谱域[4]。在我们的工作中,我们使用MFCC参数化进行特征提取。我们对识别系统的第一次干预是在标记声音文件的阶段。在大型词汇表ASR系统中,dbn用于表示单词的子单元(如电话)。对于阿拉伯语来说,大约有38种型号(电话)是很典型的,具体的电话设置取决于使用的字典。词模型可以被构造为子词模型的组合。实际上,同一部手机的实现方式有很大不同,这取决于它的相邻手机“phone context”[5]。语音识别使用上下文依赖于语音字母表,其中每个音素在周围音素的上下文中有一个或多个单位。一些比较常见的方案是单声道、双声道和三声道。

  1. 语音识别

与其他模式识别系统一样,说话人识别的过程分为训练和测试两个阶段。训练是通过从每个扬声器中提取特征,使系统熟悉扬声器注册者的语音特征的过程[6]。训练阶段的框图如图3所示。从训练话语中提取代表说话人语音特征的特征向量,用于建立参考模型。在测试过程中,从测试话语中提取相似的特征向量,并通过几种匹配算法得到它们与参考的匹配程度。执行特征匹配处理以确定这些特征是否属于先前已知的说话人模式。测试阶段的示意图如(图4)所示。说话人识别过程包括两种模式:训练模式和识别模式。在训练阶段,使用说话人模式数据库从每个说话人身上提取特征。这些特征被用来训练神经网络。在测试阶段,从每个传入的扬声器中提取特征,并执行特征匹配处理以确定这些特征是否属于先前已知的扬声器模式。图4显示了所提出的检测系统的步骤的示意图。从流程图中提取特征的过程的步骤可以总结如下:1.语音信号可用于时域或其它离散变换域。DCT、DST和DWT可用于此目的。2.MFCCs和多项式形状系数是从语音信号、信号的离散变换或二者中提取出来的,训练模式和识别模式都包括特征提取,有时称为系统前端。特征抽取器将数字语音信号转换成一系列数字描述符,称为特征向量。这些特性提供了比原始输入信号更稳定、健壮和紧凑的表示。特征提取可以看作是一个数据缩减过程,它试图以较小的数据速率捕获说话人的基本特征。在训练模式中,集合中的每个说话人使用一组训练数据建模。从训练数据中提取特征,基本上去除训练语音样本中所有不必要的信息,只留下说话人特征信息,从而构造说话人模型。在识别模式下,从未知说话人的语音样本中提取特征。模式匹配是指计算未知说话人特征向量和存储在数据库中的模型之间的匹配分数的一种或几种算法。模式匹配模块的输出是一个相似度得分。识别链的最后一个阶段是决策。决策模块以匹配分数为输入,对说话人身份进行最终决策。显然,特征提取过程(获取说话人歧视信息)和分类过程(利用特征确定正确的说话人)算法对于任何说话人识别系统都是至关重要的。

4.1特征提取

单个人类语音信号包含大量的说话人相关信息。虽然人脑能够根据诸如方言、说话风格、讲话内容和说话人情绪状态等“高级”属性来区分说话人,但由于所需的高度复杂性,设计基于这些属性的识别算法是不可行的。然而,基于信号的低阶特性,如基音、强度、共振峰频率及其特性,建立有效的识别算法是可能的。特征提取的概念有助于从两个方面根据说话人的低级属性来识别说话人。首先,提取产生足够的信息以进行良好的说话人识别,并以允许有效建模的形式和大小捕获该信息。其次,特征提取可以看作是一个数据缩减过程,它试图以较小的数据速率捕获说话人的基本特征。特征抽取器将数字语音信号转换成一系列称为特征向量的数字描述符。在说话人识别系统中使用了几种特征提取技术。利用MFCCs进行特征提取的概念在说话人识别中已广为人知,它有助于实现基于低级属性识别说话人的目标[3]。很明显,语音信号具有振荡模式,这支持倒谱方法在语音信号特征提取中的应用。在说话人识别中,提取的信息为说话人识别提供了充分的信息。在下面的小节中,对mfcc和多项式系数的提取进行了说明。

4.2提取MFCC

倒谱分析是从语音信号中提取mfcc的常用方法。首先对输入信号进行加框和加窗,然后进行傅里叶变换,得到的谱的大小被Mel尺度扭曲。然后记录该频谱的对数并应用DCT(图5)。必须首先将一维信号分解成小部分;每个部分都有N个样本。这些部分被称为框架和动机成帧过程是一维信号的准静态性质。然而,如果我们研究离散部分上的信号,这是足够短的持续时间,那么这些部分可以被认为是平稳的,并表现出稳定的特点[7]。为了避免信息丢失,使用帧重叠。每帧开始于相对于前一帧LBN的L个样本的某个偏移处。对于每一帧,通常应用窗口函数来增加相邻帧之间的连续性。常用的窗函数包括矩形窗、汉明窗、布莱克曼窗和平顶窗。时域加窗是帧和窗口函数的逐点乘法。现在,震级谱在频率和震级上都进行了缩放。首先,使用所谓的Mel滤波器组对数缩放频率,然后取对数,给出:

对于m=1,2,hellip;,m,其中m是滤波器组的数量,m˂N。Mel滤波器组是由Mel刻度计算的中心频率定义的三角形滤波器的集合(Srinivasan等人。2004年;Lungyun等人。2006年)。三角滤波器分布在从零到奈奎斯特频率的整个频率范围内。滤波器数目是影响系统识别精度的参数之一。最后,通过计算使用的DCT得到mfcc。结果mfcc的数目选择在12到20之间,因为大多数信号信息由前几个系数表示。第0个系数表示帧的平均日志能量。语音识别[8]的经验表明,使用delta和delta-delta系数有助于降低单词错误率。尽管MFCC的原始特征集或多或少是相关的,但是在加入del ta和delta delta特征后,特征向量中元素的信息冗余度增加。因为在这个系统中,我们关注的是光谱特征,比如MFCC特征,我们添加了与MFCC相关的不同特征,比如时间导数。包括MFCC特征向量Delta的一阶回归系数。另外,也包括二阶回归系数,称为Delta-Delta。

  1. 结果和讨论

用于训练和测试每个方言系统的数据库由20名讲者、11名男性和9名女性组成。我们选择了4个人,3个女人和一个两个男人来发音摩洛哥方言的4个单词。后来,我们开始了摩洛哥方言的识别和歌词的工作,通过“从文件添加新声音”部分学习,该部分邀请用户选择一个文件(.wav)并按身份对其进行分类,从ID:1到ID:5。我们继续训练阶段,建立一个文件数据库。我们继续训练阶段,建立一个有4个等级的文件数据库,每个等级代表一个定义明确的演讲者。11个男演讲者和9个女演讲者的演讲用于培训,1个男演讲者和3个女演讲者的演讲用于测试。每个演讲者的培训演讲是一分钟长。每个演讲者要测试的演讲是10秒长的。我们的HMM语音识别系统通过使用MATLAB编程来创建用户界面,并允许用户添加来自音频文件的新声音。我们将在本节介绍鉴定过程的结果,包括测试结果。应该提到的是,没有对与测试步骤有关的数据库进行详细的或文字级别的标记;语音是根据相应的方言数据进行标记的。例如,摩洛哥语音文件用字母“M”标记,而MSA语音文件用字母“a”标记。我们遵循三种治疗方法进行训练步骤:使用MSA文件(扬声器)进行训练:系统可以识别所有MSA测试文件,而没有摩洛哥文件。-摩洛哥文件培训:该系统可以识别所有摩洛哥测试文件,没有从MSA文件。-使用MSA和摩洛哥语文件进行培训:系统可以识别所有10个MSA测试文件和10个摩洛哥方言测试文件中的8个文件。

结论

这项工作的目的是验证我们的HMM语音识别系统辨别说话人声纹的能力,并通过给每个人一个特定的类别来识别他们。这是通过创建一个语音识别系统,并将其应用于摩洛哥方言语音

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239499],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。