2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

机器学习正在并且也将变得无处不在。‍‍

来源:IEEE Spectrum

‍编译丨杏花、莓酊、王晔

编辑:LRS

【新智元导读】人工智能的发展已有65年的历史,曾经历过寒冬,也经历过辉煌。从符号主义的专家系统到现在所向披靡的神经网络,不少人担心是否寒冬会再来,也有乐观的人表示人工智能的春天也要来了。回到人工智能发展的开端,也许会有答案。

1956年夏天,一群数学家和计算机科学家占领了达特茅斯学院数学系所在大楼的顶层。在大约八周的时间里,他们想象着一个新研究领域的可能性。

约翰-麦卡锡(John McCarthy)是当时是达特茅斯大学的一名年轻教授,他在为研讨会写提案时创造了「人工智能」一词,他说研讨会将探索这样的假设:

「(人类)学习的每一个方面或智能的任何其他特征原则上都可以被精确描述,以至于可以用机器来模拟它。」

编辑丨‍青暮

又是一年一度的谷歌年度盘点,Jeff Dean再次执笔,为我们回顾过去一年来谷歌在5大方向的研究进展以及未来趋势。

Jeff Dean表示,“在过去几十年里,我们见证了机器学习和计算机科学领域的许多重大变化。早期方法的失效促进了现代方法的诞生,并被证明非常有效。”

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

在那次传奇性的会议上,研究人员大致勾勒出了我们今天所知的人工智能。它催生了第一个研究者阵营:「符号主义者」(symbolists),基于符号主义的专家系统在20世纪80年代达到了顶峰。

会议之后的几年里,还出现了「连接主义者」(connectionists),他们在人工神经网络上苦苦钻研了几十年,直到最近才开始再创辉煌。

按照这种发展模式,他认为,我们将在未来几年内见证一些“令人兴奋的进展”,这些进展最终将造福数十亿人的生活,产生比以往任何时候都更大的影响。

在这篇文章中,Jeff Dean重点介绍了机器学习有望产生此等影响的五个方面。对于每个方面,他将讨论谷歌相关的研究(主要是从2021年开始),以及在未来几年可能出现的新方向和新进展。

这两种方法长期以来被认为是相互排斥的,研究人员之间对资金的竞争造成了敌意,每一方都认为自己是在通往人工通用智能的道路上。

这些方面分别涉及了算法、效率、个性化、全球化、责任:

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

但回顾自那次会议以来的几十年,数次人工智能寒冬都让研究人员的希望经常破灭。在今天,即使人工智能正在彻底改变行业并可能要颠覆全球劳动力市场,许多专家仍然想知道今天的人工智能是否已经达到极限。

算法上,基于Transformer的大规模预训练模型如今无论是在单模态数据的多任务通用性,以及多模态联合学习的能力上,都证明了自身的潜力;

正如 Charles Choi 在「人工智能失败的七种方式」中所描绘的那样,当今深度学习系统的弱点正变得越来越明显,然而研究人员几乎没有危机感。他认为也许在不远的将来可能会迎来另一个人工智能冬天, 但这也可能是受启发的工程师最终将我们带入机器思维的永恒之夏的时候。

开发符号人工智能的研究人员的目的是明确地向计算机教授世界知识。他们的宗旨认为知识可以由一组规则表示,计算机程序可以使用逻辑来操纵这些知识。符号主义者的先驱如纽厄尔和赫伯特西蒙认为,如果一个符号系统有足够的结构化事实和前提,那么聚合的结果最终会产生通用的智能。

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

另一方面,连接主义者受到生物学的启发,致力于「人工神经网络」的研发,这种网络可以接收信息并自行理解。

一个开创性的例子是感知机,这是一种由康奈尔大学心理学家弗兰克罗森布拉特在美国海军资助下建造的实验机器。它有 400 个光传感器共同充当视网膜,向大约 1,000 个神经元提供信息,这些神经元能够进行处理并产生单个输出。1958 年,《纽约时报》的一篇文章援引罗森布拉特的话说,“机器将成为第一个像人脑一样思考的设备”。

效率上,从算力到模型训练、部署,机器学习流水线的效率正不断提高;在模型运行方面,编译器的改进和加速器软件的优化也提供了很大的助力;而架构方面的改进,自动化机器学习的持续发展、以及对模型稀疏性的利用,都让算法研究发展迅速;

个性化上,机器学习不仅应用变得更加广泛,而且越来越人性化,在功能上越来越自然,同时也更加注重隐私保护;

全球化上,机器学习的影响范围越来越广阔,涉及到愈发多样的全球性问题,比如科学研究、医疗、芯片设计、碳排放缓解、自然灾害预防等等;

最后是责任,尽管饱受争议,但Jeff Dean表示,谷歌对于AI公平性非常重视,并从数据、算法、传播分析、模型可解释性、文化差异性研究以及大模型隐私保护上做了大量工作。

可以说,机器学习正在并且也将变得无处不在。

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

肆无忌惮的乐观鼓励美国和英国的政府机构将资金投入研究。1967 年,麻省理工学院教授、人工智能之父马文·明斯基甚至写道:“在一代人之内……创造‘人工智能’的问题将得到实质性解决。”

以下是关于五大趋势总结的编译介绍:

1

然而不久之后,政府资金开始枯竭,原因是人工智能研究除了炒作外没有任何实质性的进展没有辜负它自己的炒作。1970 年代见证了第一个人工智能冬天。

然而,真正的人工智能研究者没有放弃。

到 1980 年代初,符号主义 AI 的研究人员带来了鼎盛时期,他们因特定学科(如法律或医学)知识的专家系统而获得资助。投资者希望这些系统能很快找到商业应用。

趋势1:功能更强大、更通用的机器学习模型‍

如今,研究者正在训练比以往任何时候都更大型、功能更强大的机器学习模型。

例如,仅在最近几年,语言领域的模型规模已经从在数百亿个数据标记上训练的数十亿个参数(例如,11B 参数的T5模型),发展到在数万亿个数据标记上训练的数百亿参数(例如,密集模型如 OpenAI 的 175B 参数 GPT-3 模型和 DeepMind 的 280B 参数 Gopher 模型,以及稀疏模型如 Google 的 600B 参数 GShard 模型和 1.2T 参数 GLaM 模型)。

数据集和模型规模的增强,使得各种语言任务的准确性显著提高,正如标注自然语言处理(NLP)基准任务的全面提升所表明的那样(例如对语言模型和机器翻译模型的神经标度定律的研究所预测的)。

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

最著名的符号人工智能项目始于 1984 年,当时研究人员道格拉斯·莱纳特 (Douglas Lenat) 开始着手一项名为 Cyc 的项目,该项目旨在将常识编码到机器中。

上述大部分高级模型都专注于书面语言的单一但不可或缺的模态数据,并在语言理解基准和开放式对话能力方面展现出最先进的成果,甚至在一个领域中的多个任务中也具有如此表现。

直到今天,Lenat 和他的团队还在继续向 Cyc 的本体添加术语(事实和概念),并通过规则解释它们之间的关系。到 2017 年,该团队有 150 万个条款和 2450 万条规则。然而,Cyc 离实现通用智能还差得很远。

20世纪80年代末,商业的寒风带来了第二个人工智能冬天。专家系统市场的全面崩溃是因为它们需要专门的硬件,无法与越来越通用的台式计算机竞争。到了20世纪90年代,研究符号人工智能或神经网络在学术上已不再流行,因为这两种策略似乎都失败了。

此外,它们还表现出令人兴奋的能力,可以在训练数据相对较少的情况下推广到新的语言任务。某些情况下,新任务的训练示例很少甚至没有。例如,NLP中的改进长问答、零标签学习任务。谷歌还提出了LaMDA模型,该模型展示了一种复杂的能力,可以进行开放式对话,在多轮对话中保持重要的上下文联系。

2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

图注:“与 LaMDA 的对话,通过预设真实提示模仿威德尔海豹,“嗨,我是威德尔海豹。你有什么问题要问我吗?” 该模型在很大程度上保持了对话的角色特征。

但是,取代专家系统的廉价计算机对连接主义者来说是一个福音,他们突然获得了足够的计算机能力来运行具有多层人工神经元的神经网络。这类系统被称为深度神经网络,它们实现的方法被称为深度学习。

多伦多大学的Geoffrey Hinton 实现了一种叫做反向传播的原理来让神经网络从他们的错误中学习。

Transformer 模型也对图像、视频和语音模型产生了重大影响,正如视觉 Transformer 模型的标度定律所预测的那样,所有这些任务也都从规模扩展中受益匪浅。

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

Hinton 的一位博士后 Yann LeCun 于 1988 年进入 AT&T 贝尔实验室,在那里他和一位名叫 Yoshua Bengio 的博士后使用神经网络进行光学字符识别;美国银行很快就采用了这种技术来处理支票。

用于图像识别和视频分类的Transformer在许多基准上都取得了最先进的成果,谷歌还证明,与单独使用视频数据相比,在图像数据和视频数据上的联合训练模型可以提高视频任务的性能。

他们为图像和视频Transformer开发了稀疏的轴向注意力机制,可以更有效地使用计算,为视觉Transformer模型找到更好的标记图像方法,并通过检查视觉Transformer方法与卷积神经网络的操作方式相比,提高了对视觉Transformer方法的理解。将Transformer模型与卷积运算相结合,已在视觉和语音识别任务中显示出显著的优越性。

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

Hinton、LeCun 和 Bengio 于 2019 年获得图灵奖。

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

但是神经网络的拥护者仍然面临一个大问题:他们的理论框架逐渐拥有越来越多的计算能力,但是世界上没有足够的数据来供他们训练模型,至少对于大多数应用程序来说是这样,人工智能的春天还没有到来。

但在过去的二十年里,一切都变了。

尤其是随着互联网蓬勃发展,突然间,数据无处不在。

生成模型的输出质量也在大幅提高,这在图像的生成模型中表现得最为明显。

数码相机和智能***在互联网上发布图像,维基百科和 Reddit 等网站充满了可免费访问的数字文本,YouTube 有大量视频。足够的数据也是训练神经网络的基础。

另一个重大发展来自游戏行业。Nvidia 等公司开发了称为图形处理单元 (GPU) 的芯片,用于在视频游戏中渲染图像所需的繁重处理。游戏开发人员使用 GPU 进行复杂的着色和几何变换。需要强大计算能力的计算机科学家意识到,他们可以使用 GPU 执行其他任务,例如训练神经网络。

Nvidia 也注意到了这一趋势并创建了 CUDA,CUDA 可以让研究人员能使用 GPU 进行通用数据处理。

2012年,Hinton 实验室的一名学生名叫 Alex Krizhevsky,他使用 CUDA 编写了一份神经网络的代码,AlexNet 模型的效果惊艳了整个学术界。

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

Alex 开发这个模型的目的是 ImageNet 竞赛,ImageNet提供数据让 AI 研究人员构建计算机视觉系统,该系统可以将超过 100 万张图像分为 1,000 个类别的对象。

虽然 Krizhevsky 的 AlexNet 并不是第一个用于图像识别的神经网络,但它在 2012 年的比赛中的表现引起了全世界的关注。AlexNet 的错误率为 15%,而第二名的错误率高达 26%。神经网络的胜利归功于 GPU 的能力和包含 650,000 个神经元的深层结构。

例如,最近的模型已经证明,仅给定一个类别(例如,输入“爱尔兰塞特”或“有轨电车”)就可以创建逼真的图像,也可以通过修复低分辨率图像,以创建一个看起来自然的高分辨率匹配图像(例如,输入“计算机,增强!”),甚至可以创建任意大小的自然场景。

另一个例子是,可以将图像转换为一系列离散标记,然后可以使用自回归生成模型以高保真度合成这些标记。

图注:级联扩散模型的示例,该模型从给定类别生成新图像,然后将其用作种子来创建高分辨率示例:第一个模型生成低分辨率图像,其余模型对最终高分辨率图像执行上采样。

在第二年的 ImageNet 比赛中,几乎每个人都使用了神经网络。到 2017 年,许多参赛者的错误率已降至 5%,随后组织者结束了比赛。

深度学习这次开始彻底起飞了。

SR3 超分辨率扩散模型将低分辨率图像作为输入,并从纯噪声构建相应的高分辨率图像。

视频链接:https://iterative-refinement.github.io/assets/cascade_movie2_mp4.mp4

这些强大的功能背后,亦伴随着巨大的责任,因此谷歌表示会根据其 AI 原则仔细审查此类模型的潜在应用。

除了先进的单模态模型外,谷歌也开始注意大规模多模态模型的潜力。这些是迄今为止最先进的模型,因为它们可以接受多种输入模态(例如,语言、图像、语音、视频),并可以生成多种输出模态,例如,基于描述性的句子或段落生成图像,或用人类语言描述图像的视觉内容。

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

凭借 GPU 的计算能力和大量用于训练深度学习系统的数字数据,自动驾驶汽车可以在道路上行驶,语音助手可以识别用户的语音,网络浏览器可以在数十种语言之间进行翻译。

这是一个令人兴奋的方向,因为和现实世界一样,在多模态数据中有些东西更容易学习(例如,阅读并观看演示比仅仅阅读更有用)。因此,将图像和文本配对可以帮助完成多语言检索任务。并且,更好地理解如何将文本和图像输入配对,可以为图像描述任务带来更好的结果。

人工智能还在一些以前被认为是机器无法战胜的游戏中击败了人类冠军,包括棋盘游戏围棋和策略游戏星际争霸 II。

目前人工智能的发展已经惠及各行各业,能够为每个应用场景都提供了识别模式和做出复杂决策的新方法。

但是深度学习领域不断扩大的胜利依赖于增加神经网络的层数并增加专门用于训练它们的 GPU 时间。

同样,对视觉和文本数据的联合训练也有助于提高视觉分类任务的准确性和鲁棒性,而对图像、视频和音频任务的联合训练可以提高所有模态的泛化性能。

此外还有一些迹象表明,自然语言可以用作图像处理的输入,告诉机器人如何与世界交互并控制其他软件系统,这预示着用户界面的开发方式可能会发生变化。这些模型处理的模态将包括语音、声音、图像、视频和语言,甚至可能扩展到结构化数据、知识图谱和时间序列数据。

2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

图注:基于视觉的机器人操作系统示例,该系统能够泛化到新任务。左图:机器人正在执行一项基于“将葡萄放入陶瓷碗中”指令的任务,而模型并未接受该特定任务的训练。右图:类似左图,但任务描述为“将瓶子放入托盘”。

人工智能研究公司 OpenAI 的一项分析表明,在 2012 年之前,训练最大的人工智能系统所需的计算能力每两年翻一番,之后每 3.4 个月翻一番。

这些模型通常使用自监督学习方法进行训练,其中模型从未经标记的“原始”数据的观察中学习,例如 GPT-3 和 GLaM 中使用的语言模型、自监督语音模型 BigSSL 、视觉对比学习模型 SimCLR 和多模态对比模型 VATT。自监督学习让大型语音识别模型得以达到之前的语音搜索自动语音识别 (ASR) 基准的准确度,同时仅使用 3% 的带注释训练数据。

正如 Neil C. Thompson 和他的同事在 Deep Learning's Diminishing Returns 中所写的那样,许多研究人员担心人工智能的计算需求正处于不可持续的轨道上,并且可能破坏地球的能量循环,研究人员需要打破构建这些系统的既定方法。

这些趋势令人兴奋,因为它们可以大大减少为特定任务启用机器学习所需的工作量,并且由于使得在更具代表性的数据上训练模型变得更容易,这些数据更好地反映了不同的亚群、地区、语言,或其他重要的表示维度。

虽然看起来似乎神经网络阵营已经彻底击败了符号主义者,但事实上,这场战斗的结果并不是那么简单。

所有这些趋势都指向训练功能强大的通用模型的方向,这些模型可以处理多种数据模式,并解决成千上万个任务。通过构建稀疏性模型,使得模型中唯一被给定任务激活的部分,仅有那些为其优化过的部分,从而这些多模态模型可以变得高效。

Jeff Dean表示,在接下来的几年里,谷歌将基于Pathways架构追求这一愿景。

2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

Pathways:谷歌正在努力的统一模型,可以泛化至数百万个任务。

2

例如 OpenAI 的机器人手因为操纵和求解魔方而成为头条***,该机器人同时使用神经网络和符号人工智能。它是许多新的神经符号(neuo-symbolic)系统之一,使用神经网络进行感知,使用符号人工智能进行推理,这是一种混合方法,可以提高效率和解释性。

趋势2:机器学习效率的持续提升

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

尽管深度学习系统往往是黑匣子,以不透明和神秘的方式进行推理,但神经符号系统使用户能够深入了解并了解人工智能是如何得出结论的。美国陆军特别警惕依赖黑匣子系统,因此陆军研究人员正在研究各种混合方法来驱动他们的机器人和自动驾驶汽车。

目前来说深度学习系统是为特定任务而构建的,不能将它们的能力从一项任务推广到另一项任务。更重要的是,学习一项新任务通常需要人工智能清除它所知道的关于如何解决其先前任务的一切,这个难题称为灾难性遗忘。

由于计算机硬件设计以及机器学习算法和元学习研究的进步,机器学习的效率得到持续提升,推动着机器学习模型的功能变得更加强大。

在谷歌位于伦敦的人工智能实验室 DeepMind,著名的机器人专家 Raia Hadsell 正在使用各种复杂的技术解决这个问题。其他研究人员正在研究新型元学习,希望创建 AI 系统,学习如何学习,然后将该技能应用于任何领域或任务。

ML 流水线涉及许多方面,从训练和执行模型的硬件,到 ML 架构的各个组件,都可以进行效率优化,同时保持或提高整体性能。

与前几年相比,这些线程中的每一个都可以以显著的乘法因子提高效率,并且综合起来可以将计算成本(包括二氧化碳当量排放量)降低几个数量级。

更高的效率促成了许多关键的进步,这些进步将继续显著提高机器学习的效率,使更大、更高质量的机器学习模型能够以高效的方式开发,并进一步使访问公平化。

所有这些策略都可能有助于研究人员实现他们最高的目标:用人类观察孩子发展的那种流体智能来构建人工智能。

人工智能65年简史:从麦卡锡到Hinton,人类追求的AI究竟是什么?

幼儿不需要大量数据就可以得出结论,他们做的只是观察世界,创建一个关于它如何运作的心智模型,采取行动,并使用他们的行动结果来调整该心智模型。他们迭代直到他们理解。这个过程非常高效和有效,甚至远远超出了当今最先进的人工智能的能力。

尽管目前研究 AI 的投入资金达到了历史最高水平,但几乎没有证据表明我们的未来会失败。世界各地的公司都在采用人工智能系统,因为他们看到他们的底线立即得到改善,而且他们永远不会回头。

研究人员是否会找到适应深度学习的方法以使其更加灵活和强大,或者设计出这65年探索中还没有发现的新方法,让机器变得更像人类。

ML 加速器性能的持续改进

每一代 ML 加速器都在前几代的基础上进行了改进,使每个芯片的性能更快,并且通常可以扩大整个系统的规模。

参考资料:

去年,谷歌发布了其TPUv4 系统,这是谷歌的第四代张量处理单元,它在 MLPerf 基准测试中比 TPUv3 提升了 2.7 倍。TPUv4 芯片的峰值性能是 TPUv3 芯片的约 2 倍,每个 TPUv4 pod 的规模为 4096 个芯片(是 TPUv3 pod 的 4 倍),每个 pod 的性能约为 1.1 exaflops(而每个 TPUv3 pod约为 100 petaflops)。拥有大量芯片并通过高速网络连接在一起的 Pod 可以提高大型模型的效率。

此外,移动设备上的机器学习能力也在显着提高。Pixel 6 ***采用全新的 Google Tensor 处理器,该处理器集成了强大的 ML 加速器,以更好地支持重要的设备功能。

2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

左:TPUv4 主板;中:TPUv4 pod的一部分;右图:在 Pixel 6 ***中的 Google Tensor 芯片。

Jeff Dean表示,谷歌使用 ML 来加速各种计算机芯片的设计也带来了好处,特别是在生产更好的 ML 加速器方面。

ML 编译和 ML 工作负载优化的持续改进

即使硬件不变,编译器的改进和机器学习加速器系统软件的其他优化也可以显著提高效率。

https://spectrum.ieee.org/history-of-ai

例如,“A Flexible Approach to Autotuning Multi-pass Machine Learning Compilers”展示了如何使用机器学习来执行编译设置的自动调整,用于同一底层硬件上的一套 ML 程序,以获得 5-15% 的全面性能提升(有时甚至高达2.4 倍改进)。

此外,GSPMD 描述了一种基于 XLA 编译器的自动并行化系统,该系统能够将大多数深度学习网络架构扩展到加速器的内存容量之外,并已应用于许多大型模型,例如 GShard-M4、LaMDA、BigSSL、ViT、MetNet -2 和 GLaM,在多个领域产生了最先进的成果。

2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

图注:通过在 150 个 ML 模型上使用基于 ML 的编译器自动调整实现端到端模型加速。图中包括实现 5% 或更多改进的模型。条形颜色代表优化不同模型组件的相对改进。

人类创造的更高效模型架构

模型架构的持续改进大大减少了为许多问题实现给定精度水平所需的计算量。

例如,谷歌在 2017 年开发的 Transformer 架构能够提高在多个 NLP 基准上的当前最佳水平,同时使用比其他各种常用方法少 10 到 100 倍的计算来实现这些结果,例如 LSTM 和其他循环架构。

同样,尽管使用的计算量比卷积神经网络少 4 到 10 倍,但视觉 Transformer 能够在许多不同的图像分类任务上显示出改善的最先进结果。

机器驱动的更高效模型架构的发现

神经架构搜索(NAS)可以自动发现对给定问题域更有效的新 ML 架构。NAS 的一个主要优点是它可以大大减少算法开发所需的工作量,因为 NAS 只需要对每个搜索空间和问题域组合进行单次检验。

此外,虽然执行 NAS 的初始工作在计算上可能很昂贵,但由此产生的模型可以大大减少下游研究和生产设置中的计算,从而大大降低总体资源需求。

例如,发现 Evolved Transformer 的单次搜索仅产生了 3.2 吨二氧化碳当量(远低于其他地方报告的 284 吨二氧化碳当量),但产生了一个比普通的 Transformer 模型效率高 15-20%的模型。

最近,谷歌利用 NAS 发现了一种更高效的架构,称为 Primer(也已开源),与普通的 Transformer 模型相比,它可以将训练成本降低 4 倍。通过这种方式,NAS 搜索的发现成本通常可以从使用发现的更有效的模型架构中收回,即使它们仅应用于少数下游任务(NAS 结果可被重复使用数千次)。

2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

图注:NAS 发现的 Primer 架构的效率是普通 Transformer 模型的 4 倍。这张图片红色部分显示了 Primer 获得大部分改进的两个主要修改:添加到注意力多头投影的深度卷积和平方 ReLU 激活(蓝色表示原始 Transformer 的部分)。

NAS还被用于在视觉领域发现更有效的模型。EfficientNetV2 模型架构是神经架构搜索的结果,它联合优化了模型精度、模型大小和训练速度。在 ImageNet 基准测试中,EfficientNetV2 将训练速度提高了 5 到 11 倍,同时与以前最先进的模型相比,模型参数大大减少。

CoAtNet 模型架构是通过架构搜索发现的,结合了视觉 Transformer 和卷积网络来创建一个混合模型架构,其训练速度比视觉 Transformer 快 4 倍,并实现了新的 ImageNet 最先进结果。

2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

图注:EfficientNetV2 的训练效率比之前的 ImageNet 分类模型要好得多。

广泛使用搜索来帮助改进 ML 模型架构和算法,包括使用强化学习和进化技术,激发了其他研究人员将这种方法应用于不同领域。

除了模型架构之外,自动搜索还可用于寻找新的、更有效的强化学习算法,建立在早期的 AutoML-Zero 工作的基础上。

稀疏性的利用

稀疏性模型具有非常大的容量,但对于给定的数据(示例或 token ),只有模型的某些部分被激活,这是另一个可以大大提高效率的重要算法进步。

2017 年,谷歌引入了稀疏门控混合专家层,该层在各种翻译基准上展示了更好的结果,同时使用的计算量比以前最先进的密集 LSTM 模型少 10 倍。

最近,Switch Transformers 将混合专家风格的架构与 Transformer 模型架构相结合,与密集的 T5-Base Transformer 模型相比,训练时间和效率提高了 7 倍。

GLaM 模型表明,Transformer 和混合专家风格的层可以结合起来生成一个模型,该模型在 29 个基准测试中平均超过 GPT-3 模型的准确性,而训练的能耗减少了 3 倍,推理的计算量减少了 2 倍。稀疏性的概念也可以用于降低Transformer 架构中注意力机制的成本。

2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

图注:BigBird 稀疏注意力模型由关注输入序列所有部分的全局标记、局部标记和一组随机标记组成。从理论上讲,这可以解释为在 Watts-Strogatz 图上添加一些全局标记。

在模型中使用稀疏性,显然是一种在计算效率方面具有非常高潜力的方法。Jeff Dean 表示,谷歌只是在这个方向上触及了皮毛。

与使用 P100 GPU 训练的基线 Transformer 模型相比,这些提高效率的方法中的每一种都可以组合在一起,可将高效数据中心训练的等效精度语言模型的能源效率提高约 100 倍,产生的二氧化碳排放量减少约 650 倍。

Jeff Dean表示,其团队很快就会发表更为详细的博客文章分析 NLP 模型的碳排放趋势。

3

趋势3:机器学习正推动个人和社区的发展

ML 和诸如***上的Tensor 处理器等硅基硬件的创新,使得移动设备可以更持续有效地感知周围环境,而这将为用户带来一系列新的体验。

他认为这种进步不仅提高了其可及性、易用性,而且提升了计算的能力,这对改善移动摄影、实时翻译等功能也至关重要。值得注意的是,这种最新的技术在为用户提供更加个性化体验的同时,还加强了隐私保障措施。

目前,使用***摄像来记录日常生活或进行艺术表达的热度空前。Jeff Dean 认为,ML 在计算摄影中的巧妙运用,可以不断促进***相机功能的提升,使其操作起来更加容易,也可以提高拍摄性能,产生更高质量的图像。

比如,经过改进的HDR+,在非常低的光线下就可以很好地处理人像,使相机更具包容性,并且适用于所有肤色,可以拍摄出能够达到摄影师预想视觉效果并且更符合主题的照片。

不仅如此,基于 ML 的 Google Photos 工具,像电影照片、降噪、模糊以及魔术橡皮擦等,可以进一步完善照片。

2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势

图注:HDR+ 从一连串全分辨率原始图像开始,每个图像都有相同的曝光不足(左)。融合后的图像减少了噪点并增加了动态范围,从而获得了更高质量的最终图像(右)。

除了使用***进行创作外,Jeff Dean 还列举了人们依靠***进行跨语言和跨模式的实时沟通的例子,比如在消息应用程序中使用实时翻译,在通话交流中使用实时字幕等。

得益于自监督学习和噪声学生训练(Noisy Student Training)等技术的进步,语音识别的准确率在重音、嘈杂环境或语音重叠和多语言环境下,都有明显提高。基于从文本到语音合成方面的进展,越来越多的平台推出了朗读技术,允许人们用听的方式获取网页或文章内容,使信息更容易跨越模态和语言的障碍。

稳定、实时生成的翻译以及高质量、稳定、有保障的直接语音翻译,为使用不同语言交流的人们提供了更好的用户体验,机器翻译中的实时语音翻译功能也已得到极大改善。

将ML与传统的编解码方法相结合的新工作,可以促使更高保真度的语音、音乐或其它声音以更低的比特率进行交流。另一方面,Jeff Dean 还表示像自动呼叫或者与 ML 智能体进行的一些日常互动性的功能变得越来越自然。

即使是用户可能会经常进行的,像智能文本选择等这样的简单任务也得到了改进,可以实现自动选择***号码或地址等,能够方便复制粘贴,或者在***上输入时的语法纠正。