走进世界各地的许多房屋,你很可能会发现一个或几个无处不在的小扬声器散落在各处。对于这些房屋的居民来说,这些设备已成为他们生活中的重要组成部分,分享有关会议、旅行计划、购物清单甚至天气预报的详细信息。我们已经开始依赖它们来帮助简化我们的生活并娱乐我们。
理解语音识别
语言和语音的历史可以追溯到几千年前。相反,计算是最近才发展起来的。语音识别软件或语音识别技术试图将语言和语音结 商店 合起来,以便计算设备能够理解人类的声音并做出反应。
然而,语音识别极其复杂。当孩子接受教育时,他们通过观察和聆听周围的各种声音来学习。随着时间的推移,他们会将不同的声音与单词和特定物品联系起来。他们的大脑会建立独特的模式,并伴随一生,帮助解读口音、语调和声调,从而提供意义。
训练计算机在某些方面与此类似,但也有很大不同。人类似乎毫不费力地学习语言,但这主要是因为我们已经学会了如何最好地教孩子。我们对计算机还没有同样的洞察力。我们知道的是,训练机器需要数据和大量研究。
虽然我们在提高语音识别系统
的准确率方面取得了重大进展,但仍有工作要做,以便更好地帮助计算机理解不同的方言和语言。如今,语音识别在大多数常见任务中都 未来四年内疫苗护照可能成为旅行必需品 表现得相当不错。事实上,谷歌和 IBM 等公司表示,他们的语音算法准确率接近 96%——但达到这一点需要时间和精力。要进一步了解这些系统的开发方式及其复杂性,可以深入研究语音识别系统的工作原理。
提示
只需要求 clickworker 即可获得您需要的数千种语言和方言的语音记录,以完美地训练您的语音识别系统。
获取有关服务音频数据集的更多信息
语音识别系统的历史
第一个真正的语音识别系统是在 20 世纪 50 年代初开发的。这个名为“Audrey”的系统由贝尔实验室开发,专注于理解数字。在接下来的十年里,IBM 推出了一个可以响应 16 个单词的系统,名为“Shoebox”。
20 世纪 70 年代,语音识别技术取得了巨大飞跃,这主要得益于美国政府和 DARPA 的帮助。得益于DARPA 的工作,卡内基梅隆大学创建了一个名为“Harpy”的系统,该系统能够理解 1000 个单词。换个角度来说:这大约相当于一个三岁小孩能理解的单词数量。
20 世纪 80 年代和 90 年代,语音识别技术不断进步,但直到 21 世纪,才迎来了另一次真正的变革。21 世纪初期,语音识别准确率为 80%,但随着 Google Voice 及其云数据中心的推出,准确率迅速开始提高。
谷歌可以将语音搜索与实际搜索结果关联起来,以便从中学习并更好地预测用户的需求。随着 2011 年 Siri 的推出,苹果加入了改进语音识别的竞争,也帮助我们达到了目前接近 96% 的准确率。
语音识别的用途
当比较语音和打字速度时,胜负显而易见。人类平均每分钟可以说话 150 个字,而打字速度为每分钟 40 个字。显而易见的问题是,为什么我们不都是对着电脑说话,而是打字呢?
事实是,目前限制因素仍然是可靠性。虽然语音识别声称准确率高达 96%,但这只在非常特定的条件下才成立。当涉及多种语言和 香港领先 口音或方言时,准确率会迅速下降。
要使语音成为一种无处不在的输入方式,设备需要能够理解和解决我们语言中固有的所有冲突。例如,同音词问题(发音相同但含义不同)可能会导致人们猜测对方所说的内容。计算机也存在同样的问题。
尽管存在这些限制,语音识别仍在许多不同领域取得进展。虽然它最初是在智能手机上推出的,但现在已可用于智能音箱、电脑、汽车甚至智能手表。语音识别具有许多不同的用例,其未来前景更加令人着迷。