研发埠

标题: 语音识别技术有哪些模型？ [打印本页]

作者: 王为人 时间: 2014-3-12 14:41
标题: 语音识别技术有哪些模型？

作者: 邓超群 时间: 2014-3-12 14:44
目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先，统计语音识别的最基本问题是，给定输入信号或特征序列，符号集（词典），求解符号串使得：W = argmaxP(W | O) 通过贝叶斯公式，上式可以改写为由于对于确定的输入串O，P(O)是确定的，因此省略它并不会影响上式的最终结果，因此，一般来说语音识别所讨论的问题可以用下面的公式来表示，可以将它称为语音识别的基本公式。 W = argmaxP(O | W)P(W)从这个角度来看，信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号(记为S)到特征序列O的映射。而声学模型本身定义了一些更具推广性的声学建模单元，并且提供了在给定输入特征下，估计P(O | uk)的方法。为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便，也可以定义一个由到U的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。并且有：最后，语言模型则提供了P(W)。这样，基本公式就可以更加具体的写成：对于解码器来说，就是要在由,0,ui以及时间标度t张成的搜索空间中，找到上式所指明的W。语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

欢迎光临研发埠 (http://bbs.yanfabu.com/)