织梦CMS - 轻松建站从此开始!

高速音码输入法

当前位置: 主页 > 文献 >

让机器听懂人说话

时间:2013-08-07 16:13来源:编辑 作者:高速音码 点击:
让机器听懂人说话-科技频道-和讯网

柯登峰

让机器听懂人说话

柯登峰

  新闻背景

  本月4日,日本科学家将世界上首个能用日语与人交换的机器人航天员“Kirobo”送往国际空间站。另据报道,苹果公司最近在波士顿麻省理工大学旁边组建了一个诡秘办公室,将会成为簇新语音辨别研发基地。

  权威专家以为,“语音辨别将会颠覆眼前的电脑界面”,而全世界各方正在为此采取行动。

  语音辨别是将语音转换成文字的技艺,已经被誉为人和机器交换的最自然界面。让机器能听懂人话,一直是人类的空想。早在1968年,第一个能听懂人话的机器人就涌今朝美国的一部科幻电影里。

  “在美国DARPA方案刚启动语音辨别知道研究方案的时候,有人以为其艰难程度无论怎样也不会比"阿波罗登月"更高。事实却证明,其挑战性一点不亚于 "阿波罗登月"。”中国科学院自动化研究所研究员、已经充当国家863方案信息领域专家组专家的徐波研究员这样说。

  语音辨别是一个十分繁杂的通过,它波及物理声学、信号办理、认知心理、语言学和概率统计等多个领域的知识。而最终达到人类一样的听觉能耐,则需要对人类大脑感知认知通过的揭示,打字,其遇到的问题繁杂性是难以想象的。

  即兴语音辨别率低

  从发音方式上讲,语音可以分为诵读式、即兴式和表演式等种类。

  诵读式语音比较合适语法规范、发音充沛、情感单纯,是几种发音方式中最容易采集录音最容易建模的一种,所以具备很高的辨别精确率,新闻报道、诵读课文均属于这类语音。

  即兴式语音发音不到位,通常含有迟疑、反复、修正、删除等口语化现象,并掺有各种现场噪声。而这些口语化现象产生的地位和种类又是难以料想的,给语言建模造成了巨大的艰难。

  表演式语音感情丰盛,发音夸大,表演欲望猛烈。这类发音过于充沛,韵律起伏变化巨大,无论是发音、声调、语调,都与原始模型有巨大差别。话剧、歌剧属于这类代表,而一般人在冲动、震怒等情绪下的语音也附属于此类。这种语音通常不会有很高的辨别率。

  新语言现象带来挑战

  而随着中外语言的混合,网络语言的兴起,方言词汇的开放,传统教科书上的语法规范曾经无法满意现代生活的需求。例如:“在干嘛呢?”“看电视ing~~(正在看电视)”“偶稀饭你。(我喜欢你)”这种混同着不同语言,又不合适如常语法规范的话语,给语音辨别带来巨大的挑战。

  人名、地名、商品名等专有名词在现实生活中使用颇多,这类名词可以自由发明,语音辨别只能对常见的比较出名的人名、地名和商品名进行辨别,要做到像人类一样可以交互式地学会未知词汇,并在般配的语境般配地使用现学的词汇,还有一段距离要走。

  知道繁杂语义难上加难

  此外,眼前语音辨别的研究重点也开始从语音转文字向文本内容知道动向发展。尤期末文知道由于语言广博精湛,要让运算机知道词汇内外文准确含义,则还不曾开始。例如甲给乙送礼,产生以下的会话要让运算机知道“意思”这词的不同含义和精妙分别,眼前几乎还不曾可能。

  乙:你这是什么意思?

  甲:没什么意思,意思意思。

  乙:你这就不够意思了。

  甲:小意思,小意思。

  乙:你这人真故意思。

  甲:其实也不曾什么别的意思。

  乙:那我就不好心思了。

  甲:是我不好心思。

  发音景象千差万别

  从语音学层面讲,语音是人类发出的故意义的声响。这种声响依照音质分为元音和辅音两大类别。

  依照前人的研究成果,决计元音音质的最重要特征是频谱成分中能量最强的频率带,称为共振峰。可是元音空间是一个相对的空间,也就是说,每个人的元音空间是不同的,每个语言的元音空间也不相同。这种不同起源于每个人的发声器官的不同,独特是声道长度的不同。尤其是变声前的儿童,其声道长度短于成年人,导致共振峰远高于成年人。这种不同不会对人类感知带来艰难,却惨重影响了机器语音辨别的性能。

  辅音是比元音更难以精确辨别的音质。同一个部位的辅音依照声带是否振动可以分成清辅音和浊辅音,通常清音和浊音的差异很小,机器难以区别。还有一部分辅音介于清音和浊音之间,含蕴清音浊流和浊音清化,对这类辅音进行自动辨别难度巨大。辅音还可以复合成为复辅音,进一步增大了辅音辨别的难度。

  语音噪声难以区别

  此外,对语音和噪声的鉴定也是语音辨别的难点问题。在某些语言里故意义的辅音在另一个语言里则可能变成无意义的噪声。例如,咂舌音始末舌头拍击上颚发出相似咽口水的动静,在阿拉伯语中属于有独到语义的语音,而在汉语中则是噪声。有些语言里面有区别意义的辅音到另一个语言里则变成不曾区别意义的同一个音位,如汉语一般话的[n][l]到汉语广州话中则无法区别。

  多个人同时说话在日常生活中十分普遍存在,人类可以有抉择地关注特定声源所发的声响,而运算机眼前还难以模仿人类的这类听觉关注机制。

  发展沿革

  云运算为语音辨别开辟新模式

  语音辨别的发展,归结精神了60年的历史。1952年,美国电话电报公司贝尔实验室的戴维斯等人开发了Audrey系统。该系统可以始末共振峰分析技艺辨别单个人的10个英文数字。

  1956年,普林斯顿大学的奥尔森等人同样采纳共振峰分析技艺完成了10个音节的辨别。这些辨别虽然从眼前来看十分简便,却开启了机器语音辨别的时世。

  从前30至40年间,语音辨别从只能辨别特定人到能辨别非特定人、从小词汇量辨别到几万词乃至几十万词的大词汇量辨别、从一个一个蹦音的孤立语音辨别到大词汇量继续语音辨别,其技艺不停先进,但语音辨别由于辨别性能离实用有很大差距,首尾难以进入寻常百姓家中。

  但里程世界上几代科学家的努力,语音辨别发音建模技艺和语言办理建模技艺依往日趋成熟,而近几年搬动互联网的兴起则大大加快了语音辨别实用化通过。依托云运算和网络带宽,语音辨别研发可利用成千上万小时的训练数据样本,同时根据云运算,语音辨别所需要的高耗费量的内存、运算能耐都不再成为瓶颈。始末互联网或者搬动互联网终端,语音信号被传送到语音云平台进行辨别,最终将辨别结局返回到用户终端上。

  语音辨别眼前对日常生活中常见的会话和抒发有很高的辨别率,对僻静处境、远距离的安稳噪声处境有很强的可信性,对口音比较标准或者略带口音的说话有大好的习惯性,并且能够撑腰常见抒发的多语言混合辨别。

  应用概观

  语音输入已能辨别常见说话内容

  眼前,语音辨别曾经在语音门户、智能汽车、智能家居、口语考核、口语翻译、信息检索等多种场所得得了大规模使用。

  语音输入法是用户群最大的应用,典范的如百度、谷歌、讯飞、盛大推出的PC版和搬动版的语音输入法等,这些输入法曾经能够大好地对日常生活中常见的说话内容进行辨别并转成文字。

  在车载应用领域,利用语音辨别技艺进行语音导航、语音点歌、语音垄断等功能曾经不再是神话。

  今年初,长虹电视宣布在其下一代智能电视采纳智能语音辨别技艺。始末语音辨别技艺,电视机可以径直定位到用户所需的频道,可以实现一些遥控器无法完成的号令。

  去年3月,中科院自动化所推出世界上第一款基于智能手机终端的语音翻译系统。该系统可以精确地将汉语翻译成英语,也可以将英语翻译成汉语,从而使得中国人和英美国家属士进行口语交换不再成为难题。

(责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
发布者资料
DerrickBarrow 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2013-01-06 23:01 最后登录:2018-03-13 17:03
栏目列表
推荐内容