她的主角用语音代替键盘输入字母内容。
注:研究人员表示,语音识别和人工智能领域最近的突破将很快大大提高设备的理解能力。著名谷歌工程师Johan Schalkwyk表示,这款功能强大的新设备将在短短一至两年内上市。它不仅能理解人们话语的含义,还能理解语境的关联性和细微差别。
技术突破
和数字语音助手聊天可能和和一个固执的孩子讲道理一样有趣。如果你曾经对你的Xbox大喊大叫或诅咒Siri,这意味着你可能对语音识别感到失望。
沙尔克维克正在谷歌从事一项雄心勃勃的研究项目,旨在开发一种能够整合公司海量数据的语音系统。他说,目前正在实验室测试的一个项目可以让计算机理解并从本质开发者_运维问答上“思考”人们输入谷歌设备的声音。
而最近语音和机器学习领域的创新应该会大大提高语音识别的能力,缓解人们的不满。Siri开发团队的一些人表示,工程师们正在疯狂开发语音识别技术,使其足够智能,以实现设备和用户之间的真正对话。研发Siri底层技术的公司SRI国际(后来被苹果收购)副总裁William Mark表示:“语音识别技术在理解所有地区的英语口语方面取得了巨大进步。“这种对话式互动现在已经成为一种前沿技术。”
蒂姆塔特尔等待语音识别技术飞跃已久。1997年,他在麻省理工学院获得博士学位,并在其人工智能实验室工作。在过去的10年里,他在几家硅谷公司工作,最终在2010年成立了自己的公司Expect Labs。图勒的公司去年开始了一项系统研发,为移动应用程序添加了复杂的语音命令。这个应用程序可以让用户进入商店,询问手机他们想买的扫把在哪个货架过道。
“一年前,我们做了一个基准测试,得出的结论是很难实现这个功能。但是现在,一切都变了。我们公司在语音识别方面的投资翻了一番,这主要归功于我们看到的这些技术进步,”Tuttler说。“你会发现,那些和人一样精度或者比人更高的语音识别系统已经商业化了。”
旧技术获重生
让我们先快速回顾一个历史教训:两年半前,谷歌和多伦多大学的研究人员发表了一篇有影响力的论文,内容是关于使用“深度神经网络”在计算机中模拟语音。几个月后,微软和IBM联合发表了另一篇论文。谷歌工程师杰夫迪恩(Jeff Dean)称这两篇论文是“过去20年语音研究领域最大的进步”。
这一新发现重振了一项已经存在数十年的数字神经网络技术创新。这项技术在20世纪80年代在预测和分析大数据方面表现良好,但其发展受到当时计算机速度缓慢的限制。由于计算机处理速度的快速提高和新软件技术的发展,神经网络在不久的将来成为一种可行的选择。
谷歌的实验室项目基于神经网络研究。六个月前,谷歌团队放弃了一种叫做前馈神经网络的旧方法,转而使用递归神经网络。这种转换使系统能够存储更多的信息,处理更长、更复杂的序列。谷歌的创新之处在于简化了底层代码,允许软件在同一个系统中存储更多的想法和概念,使得提出复杂的问题并获得合理的答案变得容易。沙尔克维克说:“复杂的系统建设将损害其长期发展。
谷歌在谷歌系统现在使用上下文、物理定位及其它了解到的说话者信息对谈话的场所和真正含义进行预测,就像人在谈话时大脑所做的一样。的新网络技术应该更加高效,这样它就可以处理比以前更多的数据,回答更复杂的请求。
为了解释语音识别技术未来将如何运作,沙尔克以距离谷歌位于加州山景城总部几英里远的一家高端越南餐厅为例。这家餐厅叫做仙餐厅。沙尔克维克说,对于一个典型的语音识别系统来说,识别这个餐厅名字的发音是一个挑战,因为Xanh的发音是“zahn”,非常难识别。他说:“如果我能用地图说‘这是一家餐厅,它位于加州’,那么可供参考的餐厅数量将立即大大减少。"利用这些语义知识,我们可以大大提高语音识别的质量."
这听起来很简单,但是对于计算机来说,要听到一个单词,从句子中识别上下文,然后根据地理位置分析信息是极其困难和耗时的。如今,谷歌语音搜索能够正确识别餐厅,或许是因为其开发者是餐厅的常客。沙尔克维克表示,未来,谷歌将能够处理许多其他也有模棱两可声音的问题。
沙尔克维克表示,在谷歌内部,语音识别取得了“前所未有的数量”的技术进步。虽然谷歌取得的重大进展还需要一两年的时间才能体现在手机上,但这个项目已经催生了可以用于谷歌其他业务的技术。沙尔克维克说:“你开发了一些技术,为登陆月球做准备,同时,你还开发了100种其他有用的技术。
沙尔克维克说,三年前,谷歌的语音识别技术只能识别3/4个单词。现在,Tuttler表示,得益于创新的加速,谷歌的手机语音识别应用可以准确猜测12/13个单词。图特勒说:“未来,我们将生活在一个设备没有键盘的世界。
精彩评论