Jeff Dean 撰文：一文看全谷歌 AI 2018 研究成果，全程干货！-五八三

【新智元导读】 谷歌 AI 团队负责人 Jeff Dean 今天发表博客文章，总结了谷歌的研究团队在 2018 年的主要研究成果。

谷歌 AI 团队负责人 Jeff Dean 今天发布博客文章，总结了谷歌的研究团队在 2018 年的主要研究成果。内容包括：

AI 道德原则与以人为本的 AI
辅助技术
量子计算
自然语言理解
感知研究
计算摄影
算法和理论
软件系统
AutoML
TPU
开源软件和数据集
机器人技术
人工智能在其他领域的应用
医疗 AI
研究推广

AI 道德原则与以人为本的 AI

在过去的几年里，我们观察到人工智能的重大进步及其对我们的产品和数十亿用户日常生活的积极影响。我们认识到，AI 是一种造福世界的力量，它应该被合乎道德地应用，也应该应用于对社会有益的问题。今年我们发布了 《谷歌人工智能原则》(Google AI Principles) ，提出一系列负责任的人工智能实践，并概述了实施的技术建议。

AI 用于解决现实社会问题的潜力是显而易见的。一个例子是谷歌在洪水预测方面的工作。这项研究旨在提供关于洪水可能的程度和范围的准确、及时的细粒度信息，使那些在洪水易发地区的人们能够更好地决定如何最好地保护他们自己和他们的财产。

人工智能帮助洪水预测 https://www.zhihu.com/video/1068921192747954176

第二个例子是我们在地震余震预测方面的工作，我们展示了机器学习模型可以比传统的基于物理的模型更准确地预测余震的位置。更重要的是，由于 ML 模型的设计是可解释的，科学家们已经能够对余震的行为做出新的发现，这不仅可以得到更加准确的预测，而且对余震的理解理解也达到了新的水平。

我们还看到大量的外部研究者，有时与谷歌的研究人员和工程师合作，使用 TensorFlow 等开源软件应对广泛的科学和社会问题，例如使用卷积神经网络识别座头鲸，检测新的系外行星，识别病变的木薯植物等等。

地震余震预测 https://www.zhihu.com/video/1068921323044016128

辅助技术

我们的大部分研究集中在使用 ML 和计算机科学来帮助用户更快、更有效地完成任务。通常，研究团队与不同的产品团队协作，研究成果被应用于不同的产品特性和设置中。一个例子是 Google Duplex，这个系统需要研究自然语言和对话理解、语音识别、文本到语音转换、用户理解和有效的 UI 设计等。

其他的例子包括 Gmail 的 Smart Compose 工具，使用预测模型给出关于如何撰写邮件的相关的建议；以及声音搜索技术 Sound Search，能够让用户快速、准确地搜索到正在播放的歌曲；等等。

量子计算

量子计算是一种新兴的计算范式，它能够解决经典计算机无法解决的具有挑战性的问题。在过去的几年里，我们一直在积极地进行这一领域的研究，我们相信该领域正在展示在至少一个问题上的尖端能力 (所谓的量子霸权)，这将是该领域的一个分水岭事件。

在过去的一年里，我们取得了许多令人兴奋的新成果，包括开发了一种新的 72 量子比特的量子计算设备：Bristlecone，它可以扩大量子计算机可解决的问题的范围。

研究科学家 Marissa Giustina 在 Santa Barbara 在圣芭芭拉的量子 AI 实验室安装 Bristlecone 芯片

我们还发布了面向量子计算机的开源编程框架 Cirq，并探索了如何将量子计算机用于神经网络。最后，我们分享了我们在理解量子处理器性能波动方面的经验和技术，并分享了一些关于量子计算机作为神经网络的计算基础的想法。我们期待 2019 年在量子计算领域取得激动人心的成果!

自然语言理解

谷歌的自然语言研究在 2018 年取得了令人兴奋的成果，既有基础研究，也有以产品为重点的合作。我们对 2017 年提出的 Transformer 架构进行了改进，开发了一种名为 Universal Transformer 的新的实时并行版本，该版本在翻译和语言推理等自然语言任务中显示出强大的优势。

我们还开发了 BERT，这是第一个深度双向、无监督的语言表示模型，只使用纯文本语料库进行预训练，然后可以使用迁移学习对各种自然语言任务进行微调。BERT 在 11 个自然语言任务上比以前的最先进的结果有了显著的改进。

BERT 在非常具有挑战性的 GLUE 基准测试中将最优结果提高了 7.6%

感知研究

感知研究致力于解决让计算机理解图像、声音、音乐和视频的难题，并为图像捕获、压缩、处理、创造性表达和增强现实提供更强大的工具。

2018 年，我们的技术提高了 Google Photos 中组织用户最关心的内容的能力，比如人和宠物。Google Lens 和 Google Assistant 让用户了解自然世界，实时回答问题，并能在谷歌图像中使用 Google Lens 做更多事情。

Google Lens 可以帮助你了解你周围的世界

在音频领域，我们提出了一种用于语义音频表示的无监督学习方法，以及对富有表达性的语音合成的显著改进。多模态感知成为一个越来越重要的研究课题。Looking to Listen 将输入视频中的视觉和听觉线索结合起来，以隔离和加强视频中所需的说话者的声音。这项技术可以支持许多应用，从视频中的语音增强和识别、视频会议，到改进的助听器，尤其是可以应用于多人讲话的场景。

在计算资源有限的平台上实现感知变得越来越重要。MobileNetV2 是谷歌的下一代移动计算机视觉模型，被广泛应用于学术界和工业界。MorphNet 提出了一种学习深度网络结构的有效方法，在计算资源限制的条件下，可以全面提高图像和音频模型的性能。最近有关自动生成移动网络架构的研究也表明，继续提高性能是可能的。

计算摄影

在过去的几年里，手机摄像头的质量和功能都有了显著的提高。部分原因是手机中实际使用的物理传感器有所改进，但更大的原因是计算摄影这一科学领域的进步。

我们的研究团队发布了最新研究技术，并与谷歌的 Android 团队和消费硬件团队紧密合作，将最新技术应用在最新的 Pixel 和 Android 手机及其他设备中。2014 年，我们提出了 HDR + 技术，通过该技术，摄像机捕捉到一组帧，然后在软件中对齐这些帧，并将它们与计算软件合并在一起。HDR + 的工作最初是为了使图片具有比单次曝光更高的动态范围。然而，通过捕获大量的帧，然后对这些帧进行计算分析成为了一种通用的方法，这种方法在 2018 年使相机中的许多进步成为可能。例如，它允许在 Pixel 2 中开发动态照片功能，在 Motion Stills 中实现增强现实模式。

Pixel 2 拍摄的运动照片

Motion Stills 的 AR 模式

今年，我们在计算摄影研究方面的主要工作之一是创造一种称为 “夜视”(Night Sight) 的新能力，它使 Pixel 手机相机能够“在黑暗中观看”。

左：iPhone XS(全分辨率)。右: Pixel 3 的夜视能力 (全分辨率)

算法和理论

算法是谷歌系统的支柱，触及我们所有的产品，从 Google trips 背后的 routing 算法到 Google cloud 的 consistent hashing 算法。在过去的一年里，我们继续在算法和理论方面进行研究，涵盖了从理论基础到应用算法，从图挖掘到隐私保护计算的广泛领域。

我们在优化方面的工作涉及从机器学习的连续优化到分布式组合优化的各个领域。在前者，我们研究用于训练神经网络的随机优化算法的收敛性 (获得了 ICLR 2018 年最佳论文)，展示了流行的基于梯度的优化方法(如 ADAM 的一些变体) 存在的问题，为新的基于梯度的优化方法提供了坚实的基础。

ADAM 和 AMSGRAD 在一个简单的一维凸问题上的性能比较

软件系统

我们在软件系统方面的大部分研究仍然与构建机器学习模型有关，特别是与 TensorFlow 有关。例如，我们发表了 TensorFlow 1.0 动态控制流的设计和实现。我们的一些新研究引入了一个称为 Mesh TensorFlow 的系统，它使得使用模型并行性来指定大规模分布式计算变得很容易。另一个例子是，我们发布了一个使用 TensorFlow 的可扩展深度神经排序库 TF-Ranking library。

TF-Ranking 库

我们还发布了 JAX，这是一个加速器支持的 NumPy 变体，支持 Python 函数按照任意顺序自动区分。虽然 JAX 不是 TensorFlow 的一部分，但它利用了与 TensorFlow 相同的底层软件基础结构 (例如 XLA)，它的一些思想和算法对 TensorFlow 项目很有帮助。

另一个重要的研究方向是 ML 在软件系统中的应用。例如，我们继续使用分层模型将计算部署到设备上，并有助于学习内存访问模式。我们还继续探索如何使用学习的索引来替代数据库系统和存储系统中的传统索引结构。正如我去年所写的，我们认为在计算机系统中使用机器学习方面，我们只是触及了皮毛。

在一个 NMT 模型 (4 层) 中 Hierarchical Planner 的放置

AutoML

AutoML，也称为 meta-learning，是利用机器学习来自动化机器学习的某些方面的方法。我们已经在这个领域进行了多年的研究，我们的长期目标是开发一种学习系统，这种系统能够利用从以前已经解决的其他问题中获得的见解和能力，自动地解决一个新问题。

我们在这个领域的早期工作主要是使用强化学习，但我们也对进化算法的使用感兴趣。去年，我们展示了如何使用进化算法为各种视觉任务自动发现最先进的神经网络架构。

我们也探讨了强化学习如何应用于神经网络架构搜索之外的其他问题，我们的研究证明它可用于 1) 自动生成图像变换序列，以提高各种图像模型的准确性；以及 2) 寻找新的符号优化表达式，比常用的优化更新规则更有效。我们在 AdaNet 上的工作展示了如何得到具有学习能力的快速灵活的 AutoML 算法。

AdaNet 自适应地生成神经网络的集合。在每次迭代中，它都度量每个候选者的集成损失，并选择最佳的一个进行下一次迭代。

TPU

张量处理器 (TPU) 是谷歌内部开发的 ML 硬件加速器，从一开始就设计为支持大规模的训练和推理。TPU 帮助谷歌的研究取得许多突破性进展，例如 BERT(前面已经讨论过)，同时也使世界各地的研究人员能够通过开放源码在谷歌的研究基础上进行构建，并追求自己的新突破。例如，任何人都可以通过 Colab 在 TPU 上免费调优 BERT, TensorFlow Research Cloud 让成千上万的研究人员有机会从更大量的免费云 TPU 计算能力中获益。

单个 TPU v3 设备 (左) 和 TPU v3 Pod 的一部分(右)

开源软件和数据集

发布开源软件和创建新的公共数据集是我们为研究和软件工程社区做出贡献的两种主要方式。我们在这个领域最大的努力之一是 TensorFlow，这是 2015 年 11 月发布的一个非常流行的 ML 计算系统。我们在 2018 年庆祝了 TensorFlow 的三周年，在这段时间里，TensorFlow 的下载量已经超过 3000 万次，超过 1700 个贡献者增加了 4.5 万个提交。在 2018 年，TensorFlow 发布了 8 个主要版本，并增加了一些主要功能，如 eager execution。随着 TensorFlow Lite、TensorFlow.js 和 TensorFlow Probability 的推出，TensorFlow 生态系统在 2018 年有了大幅增长。

除了继续开发现有的开源生态系统，在 2018 年，我们还开发了一个用于灵活、可复现的强化学习研究的新框架，一个用于快速理解数据集的特征的新可视化工具 (无需编写任何代码)，一个使用 TensorFlow.js 在浏览器中进行实时 t-SNE 可视化的库，以及用于处理电子医疗数据的 FHIR 工具和软件等。

完整 MNIST 数据集的 tSNE 嵌入的实时演变，该数据集包含 60000 个手写数字的图像

我们发布了 Open Images V4，这是一个包含 1540 万个边界框的数据集，包含 600 个类别的 190 万张图像，以及 19794 个类别的 3010 万个经过人工检查的图像级标签。

我们还探索了一些技术，可以使用 Fluid Annotation 更快地创建可视化数据集。

COCO 数据集图像上的 Fluid Annotation 界面

机器人技术

2018 年，我们在理解 ML 如何教会机器人在现实世界里行动方面取得了重大进展，该研究教机器人抓取从来没见过的物体，相关论文获得 CoRL’18 最佳论文。我们还通过结合 ML 和基于采样的方法 (ICRA’18 最佳论文)，在学习机器人运动方面取得了进展。我们第一次能够在真实机器人上成功地在线训练深度强化学习模型，并且正在寻找新的、基于理论的方法，来学习稳定的机器人控制方法。

人工智能在其他领域的应用

2018 年，我们已经将 ML 应用于物理和生物科学中的各种问题。使用 ML，我们可以为科学家提供相当于数百或数千名研究助理的数据挖掘，从而解放科学家，使他们变得更有创造力和生产力。

我们在 Nature Methods 上发表的一篇关于神经细胞高精度自动重建的论文提出了一种新的模型，与以往的深度学习技术相比，该模型将连接组学数据自动解释的准确性提高了一个数量级。

我们的算法在鸣禽大脑中追踪单个神经突的 3D 过程

将 ML 应用于科学的其他一些例子包括：

通过数据挖掘恒星的光曲线，寻找新的太阳系外行星
认识到短 DNA 序列的起源或功能
自动检测失焦显微镜图片
自动将质谱输出映射到肽链

经过预训练的 TensorFlow 模型可以对 Fiji (ImageJ) 细胞显微镜图像斑块的蒙太奇进行聚焦质量评估。

医疗 AI

在过去的几年里，我们一直致力于将 ML 应用于医疗领域，这是一个影响我们每个人的领域，也是一个我们相信 ML 可以通过增强医疗专业人员的直觉和经验而产生巨大影响的领域。我们在这个领域的一般方法是与医疗机构合作解决基础研究问题 (利用临床专家的反馈使我们的结果更加可靠)，然后将结果发表在科学和临床杂志上。一旦该研究得到临床和科学验证，我们将进行用户和 HCI 研究，以了解如何将其应用于实际的临床环境。2018 年，我们将工作范围扩大到计算机辅助诊断和临床任务预测。

在 2016 年底，我们发表的一项研究表明，经过训练的用于评估视网膜眼底图像以检测糖尿病视网膜病变迹象的模型，其表现与美国医学委员会认证的眼科医生相当，甚至略好于后者。

2018 年，我们进一步表明，通过使用由视网膜专家标记的图像进行训练，模型的表现已经与视网膜专家相媲美。后来，我们发表了一项评估，显示了眼科医生与 ML 模型协同判断，如何比单独做决定更准确。我们与 Verily 的同事合作，在印度的 Aravind 眼科医院和泰国卫生部下属的 Rajavithi 医院等 10 多个地方部署了这个糖尿病视网膜病变检测系统。

ML 评估糖尿病视网膜病变

我们还发表了一项关于机器学习模型通过视网膜图像评估心血管风险的研究，这是一项医学专家和眼科专家都认为相当了不起的研究。这为一种新的、非侵入性的生物标志物提供了早期有希望的迹象，这种标志物可以帮助临床医生更好地了解患者的健康状况。

我们今年也继续病理学，展示了如何使用 ML 提高前列腺癌分级的准确度、利用深度学习检测转移性乳腺癌，并开发了一个原型的增强现实显微镜，可以通过来自计算机视觉模型的视觉信息帮助病理学家和其他科学家。

在过去的四年里，我们进行了一项重大的研究，利用电子健康记录来进行临床相关的预测。2018 年，我们与芝加哥大学、加州大学旧金山分校和斯坦福大学合作，在 Nature Digital Medicine 上发表了一篇论文，展示了 ML 模型如何应用于识别电子病历，能够对各种临床相关任务做出比当前临床最佳实践准确性更高的预测。作为这项工作的一部分，我们开发了一些工具，使得即使在完全不同的任务和完全不同的基础 EHR 数据集上创建这些模型变得非常容易。我们还改进了基于深度学习的变量调用 DeepVariant 的准确性、速度和实用性。该团队最近在《自然 – 生物技术》杂志上发表了一篇同行评议的论文。

研究推广

我们以多种不同方式与外部研究社区进行交流，包括教师参与和学生支持。我们很荣幸在本学年招收了数百名本科生、硕士生和博士生作为实习生，并为北美、欧洲和中东的学生提供多年的博士生奖研金 (Ph.D. fellowships)。

作为这个奖学金项目补充的是 Google AI Residency 项目，这个项目允许想要进入深度学习研究的人在谷歌与研究人员一起工作并接受他们的指导。如今，Google AI Residency 已进入第三个年头，学员们被安插在谷歌全球的各个团队中，从事机器学习、感知、算法和优化、语言理解、医疗保健等领域的研究。

每年，我们也通过 Google Faculty Research Awards program 支持一些教师和学生进行研究项目。

我们认为，公开地为更广泛的研究社区作出贡献是支持健康和富有成效的研究生态系统的关键部分。除了开源和公开数据集之外，我们的许多研究都在顶级会议和期刊上公开发表，并积极参与、组织和赞助各种不同学科的会议。

原文链接：

ai.googleblog.com/2019/01/loo…

文章版权归作者所有，未经允许请勿转载，侵权请联系 admin@trc20.tw 删除。

THE END