登录
注册
登录
注册
学院
工具云
项目外包
技术会议
计算公式
资源
资讯
社区
文库
专题
项目
请
登录
后使用快捷导航
没有帐号?
立即注册
社区
›
研发信息&资源
›
研发应用
语音识别技术面临的问题有哪些?
徐依淼
/
于 2014-3-12 14:50
/
1
/
1574
/
[复制链接]
[只看该作者]
[打印]
[上一主题]
[下一主题]
徐依淼
积分
0
精华
0
学分
225
技术分
0
最后登录 2014-3-25
加为好友
发送消息
访问家园
信息与系统科学10004
分享到:
QQ好友和群
QQ空间
腾讯微博
腾讯朋友
收藏
0
分享
淘帖
0
支持
0
反对
0
相关帖子
•
用fluent进行内流场的声学分析的效果如何?结果可信度大吗?其分析的瓶颈有哪些?
举报
使用道具
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
|
回复
共 1 个关于本帖的回复 最后回复于 2014-3-12 14:51
杨鹏飞
积分
48
精华
0
学分
245
技术分
0
最后登录 2014-3-31
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
杨鹏飞
八品司务
发表于 2014-3-12 14:51:50
|
只看该作者
就算法模型方面而言需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。此外,随着硬件资源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信,半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。就自适应方面而言语音识别技术也有待进一步改进。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征,那可能比提高一二个百分点识别率更重要。事实上,ViaVoice的应用前景也因为这一点打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。就强健性方面而言语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation)麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。此外,带宽问题也可能影响语音的有效传送,在速率低于1000比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。语音识别技术要进一步应用,就必须在强健性方面有大的突破。多语言混合识别以及无限词汇识别方面简单地说,目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如“信噪比"等,可能也会得到奇怪的反应。这一方面是由于模型的局限,另一方面也受限于硬件资源。随着两方面的技术的进步,将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声学模型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户尽可能少或不受词汇的影响,从而可实行无限词汇识别。多语种交流系统的应用最终,语音识别是要进一步拓展我们的交流空间,让我们能更加自由地面对这个世界。可以想见,如果语音识别技术在上述几个方面确实取得了突破性进展,那么多语种交流系统的出现就是顺理成章的事情,这将是语音识技术、机器翻译技术以及语音合成技术的完美结合,而如果硬件技术的发展能将这些算法进而固化到更为细小的芯片,比如手持移动设备上,那么个人就可以带着这种设备周游世界而无需担心任何交流的困难,你说出你想表达的意思,手持设备同时识别并将它翻译成对方的语言,然后合成并发送出去;同时接听对方的语言,识别并翻译成已方的语言,合成后朗读给你听,所有这一切几乎都是同时进行的,只是机器充当着主角。任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间,以使我们获得更大的自由,就服务于人类而言,这一点显然也是语音识别技术的发展方向,而为了达成这一点,它还需要在上述几个方面取得突破性进展,最终,多语种自由交流系统将带给我们全新的生活空间。
举报
使用道具
照妖镜
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表主题
热门导读
回复
点评
评分
分享
关注我们
快速回复
快速发帖
返回顶部
返回列表
360网站安全检测平台
共 1 个关于本帖的回复 最后回复于 2014-3-12 14:51