第二章 AI复兴:深度学习+大数据=人工智能(第10/20页)

2011年前,主流的语音识别算法在各主要语音测试数据集中的识别准确率还与人类的听写准确率有一定差距。2013年,谷歌语音识别系统对单词的识别错误率在23%左右。也就是说,深度学习技术在语音识别系统广泛应用之前,基本还停留在比较稚嫩的阶段,说话者必须放慢语速,力求吐字清晰,才能获得一个令人满意的准确率。

但仅仅两年时间,因为深度学习技术的成功应用,谷歌在2015年5月举办的Google I/O年度开发者大会上宣布,谷歌的语音识别系统已将识别错误率降低到了惊人的8%37!

而IBM的Watson智能系统也不遑多让,很快就将语音识别的错误率降低到了6.9%。

微软则更进一步。2016年9月,微软研究院发布了里程碑式的研究成果:在业界公认的标准评测中,微软最新的基于深度学习的语音识别系统已经成功地将识别错误率降低到了6.3%38。

图23 近20年来语音识别错误率的下降趋势

如图23所示,在我从事语音识别研究的时代,统计模型崛起,并在随后的一二十年中,将按照单词统计的识别错误率从40%左右降低到20%左右。但在今天的深度学习时代,只用了两三年的时间,微软、IBM、谷歌等公司就将语音识别的错误率从20%左右降低到了6.3%!

这就是为什么我们说,这一拨人工智能浪潮的最大特点是人工智能技术真正突破了人类的心理阈值,达到了大多数人心目中“可用”的标准。以此为基础,人工智能技术在语音识别、机器视觉、数据挖掘等各领域走进了业界的真实应用场景,与商业模式紧密结合。

例如,今天我们拿出手机,使用苹果手机内置的语音输入法,或者使用中文世界流行的科大讯飞语音输入法,我们就可以直接对着手机说话以录入文字信息。技术上,科大讯飞的语音输入法可以达到每分钟录入400个汉字的输入效率,甚至还支持十几种方言输入。在不方便用键盘打字的场合,比如坐在汽车或火车上,我就经常用语音输入法录入文字,然后再将文字信息发给别人;有时候,我还直接用语音识别系统来写大段的文章。

深度学习携手大数据引领第三次AI热潮

语音识别系统在近年来突飞猛进,技术上只有一个原因——深度学习!事实上,机器视觉领域,2014年在Image Net竞赛(ILSVRC)中第一次超越人类肉眼识别准确率的图像识别算法也是深度学习的杰作!

今天,人工智能领域的研究者,几乎无人不谈深度学习。很多人甚至高喊出了“深度学习=人工智能”的口号。

毋庸讳言,深度学习绝对不是人工智能领域的唯一解决方案,二者之间也无法画上等号。但说深度学习是当今乃至未来很长一段时间内引领人工智能发展的核心技术,则一点儿也不为过。

人工智能大师、深度学习泰斗约书亚·本吉奥(Yoshua Bengio)说:“没有可与深度学习竞争的人工智能技术。人工智能是循序渐进的耐心工作的成果,而且它总是站在巨人的肩膀上,并且这些进步在某种程度上促成了转折点——我们可以在新服务中利用这些成果来生产新东西,进行经济转型以及改变社会。正如人们所写的那样,我们正在经历另一场工业革命,它并不是简单地增加人类的机械力;计算机将增加人类的认知能力和智力。我谈到了深度学习,因为这些变化和突破在很大程度上正是由于深度学习的进步。”39

2006年开始的第三拨人工智能热潮,绝大部分功劳要归于深度学习!

从神经网络到深度学习

深度学习究竟是何方神圣?

和许多人的想象相反,深度学习可不是一下子从石头缝里蹦出来、横空出世的大神,它的历史几乎和人工智能的历史一样长。只不过,数十年里,深度学习及相关的人工神经网络技术由于种种原因,蛰伏于人工智能兵器库的一角,默默无闻,任由其他门类的兵器在战场上耀武扬威。蛰伏不等于沉寂,在漫长的等待中,深度学习技术不断磨砺自己,弥补缺陷,打磨锋刃。当然,最重要的,是等待最合适的出山时机。

2000年后,计算机产业的发展带来了计算性能、处理能力的大幅提高,尤其是以谷歌为代表的前沿企业在分布式计算上取得了深厚积累,成千上万台计算机组成的大规模计算集群早已不再是稀罕物。而互联网产业的发展则使搜索引擎、电子商务等公司聚集了数以亿计的高质量的海量数据。大计算能力和大数据,正是深度学习这件深藏不露的千古神兵所等待的两大时机。