当前位置:首页 > 网络流行语 > 网络冷知识 > 本文内容

语音识别距人类只差0.4%?

发布时间:2022-04-02 17:00:02源自:https://www.uni8n.com作者 :说说控阅读(254)

几天前,一家美国公司宣布,当专业速记员记录对话时,单词错误率为5.1%,而该公司新开发的语音识别系统的单词错误率已达到5.5%,超过了历史上的最高水平,并树立了一个新的里程碑。语音识别是人工智能领域的核心问题之一。0.4%的差距似乎意味着机器即将与人类匹敌。

已经过了“夹子年”

事实上,对于人工智能子项目之一的语音识别,其历史甚至超过了60年。

语音识别的研究可以追溯到1950年。计算机科学之父艾伦·图灵(Alan Turing)在《心智》(mind)杂志上发表了一篇题为《计算机器与智能》(computing machine and intelligence)的论文,首次提出了机器智能的概念。论文还提出了一种验证机器是否具有智能的方法:让人们与机器进行通信。如果人们不能判断他们是在与人还是机器交流,这表明机器具有智能。这是后来著名的人工智能图灵测试

图灵测试的概念极大地影响了人工智能中函数的定义。卡内基梅隆大学的两位科学家希尔伯特·西蒙(Hilbert Simon)和曼纽尔·布卢姆(Manuel bloom)已经做了大量的前期工作证明了罗素《数学原理》(principles of mathematics)中52条轨道中的38条。西蒙甚至声称,在10年内,机器可以达到与人类智能相同的高度

从“模拟”人脑到创造统计方法

当人工智能在20世纪50年代明确了模拟人类智能的大胆目标时,这个领域在最近20年经历了辉煌。研究人员开展了一系列项目,以表明计算机可以完成一系列原本只属于人类能力范围的任务,例如证明定理、解微积分、通过计划响应命令、执行物理动作,甚至模拟心理学家的心理实验和谱系。

人们使用简单多样的算法解决更困难问题的能力。

在这个阶段,科学家们在人工智能语音识别的细分领域也走了同样的弯路。他们认为,为了完成只有人才才能完成的语音识别,计算机必须首先理解自然语言,这导致研究仅限于人类学习语言的方式,即计算机模拟人脑。语言学者参与了大量的研究工作,但最后的成果几乎为零。随着对未来继续努力的失望,包括语音识别在内的人工智能在20世纪70年代中期逐渐淡出公众视野。

统计语言学的诞生出现了转折。这必须提到一个关键人物——德里克·贾利尼克和他的IBM沃森实验室。他们使用创新的统计方法将语音识别率从70%快速提高到90%。同时,语音识别的规模从数百个单词增加到了数万个单词,使语音识别从实验室走向实际应用成为可能。

在jarnik之前,科学家将语音识别问题的核心归结为语言学中的规则问题。在jarnik将其视为一个通信问题后,他用两个隐马尔可夫模型(声学模型和语言模型)重述了语音识别。

这个框架对语音识别仍然有深远的影响。它不仅使语音识别成为可能,而且为今天的自然语言处理奠定了基础。贾里尼克后来被选为美国工程院院士,并被一家杂志评为20世纪100位发明家之一。

巨大进步的催化剂

在20世纪90年代互联网爆发时,人工智能的研究再次陷入停滞。直到21世纪的前10年,有一系列因素促使人工智能的研究进程复苏,特别是以下重要因素和核心技术:

大数据。多亏了互联网、社交媒体、移动设备和廉价传感器,世界上产生的数据量急剧增加。大数据是人工智能发展的助推器。这是因为一些人工智能技术使用统计模型来计算数据的概率,例如语音识别。通过数据海洋中丰富的语料库,技术不断优化。

新算法。算法是解决设计程序或完成任务的路径方法。在一个完整的工业语音识别系统中,关键是深度学习算法。在专业领域,还有大量与算法相关的工作,以及海量数据的收集和工程系统架构的构建。这些算法本身非常重要,也是其他技术的推动者。例如,谷歌的机器学习算法tensorflow目前是开源的。

可以说,任何技术都有储能阶段和爆炸阶段。包括语音识别技术在内的人工智能的飞速发展得益于上述条件。这并不难理解。从语音识别的角度来看,它需要经验、数据和用户反馈来提高性能。我们需要使用用户反馈来总结一些特征

谷歌是世界上第一家大规模使用深度学习算法的公司。它也是第一家将互联网思维用于语音识别的公司。在这方面,受谷歌的启发,科大讯飞迅速跟进,成为中国第一家在商业系统中使用深度学习的公司。

现有的成就与需要解决的问题一样多

语音识别技术已经发展了几十年。由于大数据和深度学习的应用,这一领域的传统优势已成为谷歌、亚马逊苹果微软等美国科技巨头。据统计,美国至少有26家公司正在开发语音识别技术,而中国有近50家公司正在研究这一领域。

虽然谷歌巨头在语音识别技术方面的技术积累和先发优势使得后来者很难赶上,但由于一些政策和市场原因,当然部分原因是汉语的复杂度高于英语,因此国际巨头的语音识别主要偏向英语,中国语音智能领域的机会留给了科大讯飞、百度、搜狗和其他中国公司。在中国,这些本地化产品更为用户所熟悉。

中文识别的困难是什么?举个简单的例子,鲁迅《孔乙己》中的孔乙己问题:有多少种方法可以写出茴香豆的“茴香”?或者更现代的情况如何描述快速物流?据说用中文回答这个问题至少有3600种方法,比如第二天,物流很棒,快递点也很受欢迎。尽管近年来语音识别取得了很大进展,但仍有很多工作要做。

此外,它还可以确保语音识别在更真实的环境中正常工作。这些环境包括有大量背景噪音的地方,例如会议场所或高速公路上的驾驶,以及在多人对话环境中区分不同的扬声器。

另一个更深层次的问题是,如果有必要实现人机对话和人机书写,那么不仅需要使用机器来转录来自人类嘴巴声音信号,而且还需要理解人们所说的话。

从语音识别的角度来看,下一个前沿是从识别到理解。真正的人工智能仍在遥远的地平线上。在机器能够理解它听到或看到的东西的真正意义之前,它仍然需要很长的时间和很长的路要走。

也可以说,我们正在从一个人类必须理解计算机的世界走向一个计算机必须理解我们的世界。亚里士多德曾经说过,如果机器能做很多工作,它们就不能解放人类。也许这种解放的起点是“理解”。(姜舒舒)

欢迎分享转载→ 语音识别距人类只差0.4%?

用户评论

精品推荐

© 2013-2018 - 说说控 版权所有 鄂ICP备88888888号-1收藏本站 - 网站地图 - 关于本站 - 网站公告 - 合作申请

闽ICP备2021016213号