Speech Recognition
Victor Zue, Ron Cole, amp; Wayne Ward
MIT Laboratory for Computer Science, Cambridge, Massachusetts, USA Oregon Graduate Institute of Science amp; Technology, Portland, Oregon, USA
Carnegie Mellon University, Pittsburgh, Pennsylvania, USA
1 Defining the Problem
Speech recognition is the process of converting an acoustic signal, captured by a microphone or a telephone, to a set of words. The recognized words can be the final results, as for applications such as commands amp; control, data entry, and document preparation. They can also serve as the input to further linguistic processing in order to achieve speech understanding, a subject covered in section.
Speech recognition systems can be characterized by many parameters, some of the more important of which are shown in Figure. An isolated-word speech recognition system requires that the speaker pause briefly between words, whereas a continuous speech recognition system does not. Spontaneous, or extemporaneously generated, speech contains disfluencies, and is much more difficult to recognize than speech read from script. Some systems require speaker enrollment---a user must provide samples of his or her speech before using them, whereas other systems are said to be speaker-independent, in that no enrollment is necessary. Some of the other parameters depend on the specific task. Recognition is generally more difficult when vocabularies are large or have many similar-sounding words. When speech is produced in a sequence of words, language models or artificial grammars are used to restrict the combination of words.
The simplest language model can be specified as a finite-state network, where the permissible words following each word are given explicitly. More general language models approximating natural language are specified in terms of a context-sensitive grammar.
One popular measure of the difficulty of the task, combining the vocabulary size and the 1 language model, is perplexity, loosely defined as the geometric mean of the number of words that can follow a word after the language model has been applied (see section for a discussion of language modeling in general and perplexity in particular). Finally, there are some external parameters that can affect speech recognition system performance, including the characteristics of the environmental noise and the type and the placement of the microphone.
Speech recognition is a difficult problem, largely because of the many sources of variability associated with the signal. First, the acoustic realizations of phonemes, the smallest sound units of which words are composed, are highly dependent on the context in which they appear. These phonetic variabilities are exemplified by the acoustic differences of the phoneme,At word boundaries, contextual variations can be quite dramatic---making gas shortage sound like gash shortage in American English, and devo andare sound like devandare in Italian.
Second, acoustic variabilities can result from changes in the environment as well as in the position and characteristics of the transducer. Third, within-speaker variabilities can result from changes in the speakers physical and emotional state, speaking rate, or voice quality. Finally, differences in sociolinguistic background, dialect, and vocal tract size and shape can contribute to across-speaker variabilities.
Figure shows the major components of a typical speech recognition system. The digitized speech signal is first transformed into a set of useful measurements or features at a fixed rate, 2 typically once every 10--20 msec (see sectionsand 11.3 for signal representation and digital signal processing, respectively). These measurements are then used to search for the most likely word candidate, making use of constraints imposed by the acoustic, lexical, and language models. Throughout this process, training data are used to determine the values of the model parameters.
Speech recognition systems attempt to model the sources of variability described above in several ways. At the level of signal representation, researchers have developed representations that emphasize perceptually important speaker-independent features of the signal, and de-emphasize speaker-dependent characteristics. At the acoustic phonetic level, speaker variability is typically modeled using statistical techniques applied to large amounts of data. Speaker adaptation algorithms have also been developed that adapt speaker-independent acoustic models to those of the current speaker during system use, (see section). Effects of linguistic context at the acoustic phonetic level are typically handled by training separate models for phonemes in different contexts; this is called context dependent acoustic modeling.
Word level variability can be handled by allowing alternate pronunciations of words in representations known as pronunciation networks. Common alternate pronunciations of words, as well as effects of dialect and accent are handled by allowing search algorithms to find alternate paths of phonemes through these networks. Statistical language models, based on estimates of the frequency of occurrence of word sequences, are often used to guide the search through the most probable sequence of words.
The dominant recognition paradigm in the past fifteen years is known as hidden Markov models (HMM). An HMM is a doubly stochastic model, in which the generation of the underlying phoneme string and the frame-by-frame, surface acoustic realizations are both represented probabilistically as Markov processes, as discussed in sections,and 11.2. Neural networks have also been used to estimate the frame based scores; these scores are then integrated into HMM-based system architectures, in what has come to be known as hybrid systems, as described in section 11.5.
An interesting feature of frame-based HMM systems is th
剩余内容已隐藏,支付完成后下载完整资料
语音识别
舒维都,罗恩科尔,韦恩沃德
麻省理工学院计算机科学实验室,剑桥,马萨诸塞州,美国
俄勒冈科学与技术学院,波特兰,俄勒冈州,美国
卡耐基梅隆大学,匹兹堡,宾夕法尼亚州,美国
一 定义问题
语音识别是指将被电话或麦克风的所捕获的一系列的音频信号转换为文字信息的过程。所识别的消息可作为最后的结果,用于控制应用,如命令与数据录入,以及文件准备。它们也可以作为进一步语言处理的输入,以实现语言理解,这是这一节所涉及的主题。
语音识别系统可以用多个参数来描述, 一些更重要参数在图形中显示出来.一个孤立字语音识别系统要求词与词之间短暂停顿,而连续语音识别系统没有这些要求。对那些不自发的,或临时生成的,言语不流利的语音,比用讲稿读出更难以识别。有些系统要求发言者登记,即用户在使用系统前必须为系统提供演讲样本或发言底稿,而其他系统据说是独立于说话者的,因为没有必要登记。一些参数特征依赖于特定的任务。当词汇量比较大或有较多象声词的时候,识别起来一般比较困难。当语音由有序的词语生成时,语言模型或特定语法便会限制词语的组合。
最简单的语言模型可以被指定为一个有限状态网络,在这种模型里每个语音所包含的所有允许的词语都能顾及到。更普遍的近似自然语言的语言模型在语法方面被指定为上下文相关联。
将词汇量和1种语言模型结合起来,是衡量这项任务难度的常用方法之一,它被松散地定义为可以跟随的单词数的几何平均值。 已经应用了语言模型之后的单词(参见关于一般和复杂的语言建模的讨论的部分)。最后,还有一些外部参数可以影响 T语音识别系统的性能,包括环境噪声的特点以及麦克风的类型和布置。
语音识别是一个困难的问题,主要是因为与信号相关的变异有很多来源。 首先,音素:作为组成词语的最小的语音单位,它的声学呈现是高度依赖于他们所出现的语境的。这些语音的变异性正好由音素的声学差异做出了验证。在词语的范围里,语境的变化会相当且具有富有戏剧性---使得美国英语里gas shortage 听起来很像gash shortage,而意大利语中的 devo andare 听起来会很像 devandare。
第二,声学变化可能是由于环境的变化以及换能器的位置和特性的变化造成的。第三,说话人内部的变化可能是由变化引起的。体现在说话人的身体和情绪状态、说话率或声音质量方面。最后,社会语言学背景、方言、声道大小和形状的差异可能导致演讲者的差异性。
数字图形展示了语音识别系统的主要组成部分。数字化语音信号先转换成一系列有用的测量值或有特定速率的特征,通常每次间隔10 - 20毫秒。然后这些测量被用来寻找最有可能的备选词汇,使用被声学模型、词汇模型、和语言模型强加的限制因素。整个过程中,训练数据是用来确定模型参数值的。
语音识别系统尝试在上述变异的来源的某些方面做模型。在信号描述的层面上,研究人员已经开发出了感性地强调重要发言者独立语音信号的特征,以及忽略发言者依赖环境的语音信号特征。在声学语音层面上,说话人差异变化通常是参照使用大量的数据来做模型。语音改编法则还开发出适应说话人独立声学模型 以适应那些目前在系统中使用的说话人语音样本。在语言在语音层面上,语言语境的影响通常通过训练不同语境下的音素模型来处理,这被称为语境相关的声学建模。
单词级差异可以由发音网络中可描述的字词的候选发音来处理。对于象声词的替代,考虑到方言以及口音的影响,通过搜索算法在网络上寻找音素的替代方法来处理。基于发生频率估计的统计语言模型 对于单词序列,通常用于引导搜索通过最可能的单词序列。
众所周知在过去的 15 年中占主导地位的识别范例是隐马尔可夫模型(HMM)。基于 HMM 是一种双随机模型,基本音素字符串和框架的生成,表面声波的变现都作为马氏过程来表述,在本章节中所讨论的和 11.2 节中的神经网络也被用来估算框架的基本性能,然后将这些性能集成到基于 HMM 的系统架构中,即现在被称为的混合系统所述的,参见第 11.5 节。
基于帧的隐马尔可夫模型系统的一个有趣的特点是在搜索过程中识别语音片段,而不是显式识别。另一种方法是首先识别语音片段,然后对这些片段进行分类,并利用片段分数来识别单词。这种方法在几个任务中产生了竞争性的识别性能。
二 目前发展现状
讨论目前的发展状况,需要联系到具体应用的环境。此外,有时不同的技术适合于不同的任务。 例如,当词汇量小,整个单词可以建模为一个单元。 但这种做法对大词汇量来说是不实际的,如字词模式必须由单一字词单元建立。
语音识别技术在过去十年取得重大进展。在基础技术方面取得了实质性进展,从而降低了影响演讲者独立性的障碍。有几个因素促成了这种迅速的进展。 首先,HMM 时代即将到来。 HMM 模型规模强大,以及具有有效地训练数据,可以自动训练出模型的最佳的性能。
第二,大量的时间与精力投入到语音系统大量词汇识别的发展、训练和测试上。 语料库其中一些是专为语音声学研究的,也有非常具体的任务。现如今,有成千上万可行的句子提供给系统来训练及测试。这些语料库允许研究人员量化语音声学的重要内容,以确定识别参数在统计上是有意义的方式。尽管许多语料原本是在美国国防部高级研究计划局的赞助下收集的,目的是在其承包商中推动人类语言技术的发展。
第三,取得的进展所带来的性能评价标准的建立。十年前,研究人员仅测试他们的系统,利用当地收集的数据进行测试;并没有很仔细划分培训和测试。 因此,这样便很难比较系统的全面性能。最近在公共领域提供大量数据,再加上评价标准的规范,形成了统一的文件。
最后,计算机技术的进步,也间接影响了语音技术的进展。大容量存储能力的快速且价格低廉的电脑,使研究人员能够短时间运行许多大型规模的实验。 这意味着一个想法与其执行和评估之间的时间大大缩短了。事实上,合理性能的语音识别系统现在可以在无附加设备的高端工作站随时运行,这在几年之前仍是个不可思议的想象。
数字识别是其中最普遍的,最有用的和困惑最低最有潜在的任务。对于美式英语来说,说话人对数字字符串的识别是独立的。当字符串长度已知时,以电话带宽为限制的错误率可达0.3%。
其中最著名的中等难度的任务是1000字的所谓资源管理(RM)的任务,其用来查询各种有关太平洋海军舰艇的研究。最好的独立执行任务的语音设备执行 RM 任务不超过 4%,用文字语言模型约束给定的单词。最近,研究人员已经开始处理自发语音识别的问题了。例如,在空中旅行信息服务(ATIS)域中,对于近2,000个单词的词汇和一个困惑约为15个的双语法语言模型,已经报告了小于3%的字错误率。
随着语音识别性能的稳步提高,许多国家的电话和蜂窝网络正在部署系统。在接下来的几年里,语音识别 将在世界各地的电话网络中普及。有巨大的力量推动技术的发展;在许多国家,触觉的渗透率很低,而声音是唯一的。可以用语音识别来控制自动化服务的选项,例如,在语音拨号中,用户可以通过语音拨打10-20电话号码。另一方面,ATamp;T公司已经安装了一个呼叫路由系统,它使用了独立于说话人的字识别技术,可以检测到一些关键的短语,例如:我想给我的电话卡充钱。
目前,一些非常大的词汇听写系统可用于文档生成。这些系统通常需要对词与词之间暂停发音。如果一个人可以应用特定领域的约束,比如口述医疗报告,他们的表现可以做的更好。
尽管正在取得很大进展,但是但是机器离识别会话语言还有很长的路要走。在总机语料库中,电话对话中的单词识别率约为50%。实现无限制词汇量以及说话人独立的连续听写能力还需要好几年。
三 未来发展方向
1992年,美国国家科学基金会主办研讨会,以确定人类语言技术领域重点研究的挑战,以及工作需要的基础设施支持。研究的主要挑战归纳为语音识别技术的以下几个方面:
滤波性:
在一个强大的系统,性能会缓慢下降(而不是灾难性的),因为条件变得与训练的条件更加不同。在信道特征的差异和声学环境上应受到特别重视。
可携性:
便携性是指目标的快速设计,开发和部署新的应用系统。目前,当系统遭受重大退化时,它便移动到一个新的任务上。为了返回到峰值性能,他们必须接受培训的具体例子来完成新的任务,这样即费时又昂贵。
适应性:
系统如何不断适应不断变化的环境(新扬声器、麦克风、任务等)并通过使用加以改进?这种适应可能发生在多层次的系统,模型子字,词的发音,语言模型等。
语言模型:
当前系统使用统计语言模型,是为了帮助减少搜索空间和解决声音的含糊问题。随着词汇量的增长和其他方面的限制放宽,创造更适合的系统,这将使越来越重要的语言模型可以得到尽可能多的约束;也许包含了纯粹的统计模型无法捕捉到的语法和语义约束。
确保措施:
大多数语音识别系统都会将分数分配给假设,以达到排序的目的。这些分数不提供或不充分表明他们是否有一个假设是正确的,只是因为这些假设优于其他猜想。当我们按任务要求开始行动时,我们需要更好的方法来评估假设的绝对正确性。
超纲词汇:
系统设计使用一套特定的单词,但系统的用户可能不知道哪些词是属于词汇系统中的。这导致了某些自然条件下,超纲词汇占据了一定的百分比。系统必须有一些方法来检测超纲的词汇,否则最终将会从词汇单词映射到未知的单词,导致发生错误。
自发演讲:
部署用于实际使用的系统必须处理各种自发的语音现象,如填充停顿,错误的开始,犹豫,在讲话中的不合语法的结构和其他没有发现的行为。ATIS任务的发展在这一领域取得了进展,但仍有许多工作要做。
韵律:
韵韵律是指跨越几段或几个单词的声学结构。通过音量、语调和节奏来表达文字识别和用户意图的重要信息(例如,讽刺、愤怒)。目前的系统并不能识别韵律的结构。如何把韵律信息整合到识别系统中来是一个尚未解决的关键性问题。
建模动态:
系统假设输入帧序列是独立的。但是,众所周知,对于文字和音素 知词和音素的知觉线索需要综合反映发音者的动作的特征,这些特征在本质上是动态的。如何对动态进行建模,并将这些信息集成到识别系统中是一个尚未解决的问题。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20789],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。