Google I/O 2025：从研究到现实

sowang · 发表于 2025-5-22 23:14:01

编者按：以下是 Google CEO Sundar Pichai 在 Google I/O 2025 大会上的讲话编辑稿，经调整以包含更多在舞台上宣布的内容。

通常，在 I/O 大会的前几周，我们不会透露太多信息，因为我们会把最重磅的模型留到大会上发布。但在 Gemini 时代，我们很可能在三月某个周二已经推出最智能的模型，或者提前一周公布像 AlphaEvolve 这样令人振奋的突破。

我们希望尽快将最出色的模型交付给大家，并尽快融入到我们的产品中。因此，我们的发布速度比以往任何时候都更快。

图片

模型的持续迭代

模型的迅速发展令我尤为兴奋。Elo 等级分，作为衡量模型进步的一项重要机制，自第一代模型 Gemini Pro 发布以来至今已经提高了 300 多分。如今，Gemini 2.5 Pro 在 LMArena 排行榜的所有类别中都占据首位。

模型的进步得益于我们世界领先的基础设施。我们第七代 TPU Ironwood，是首款专为大规模支持思考型和推理型 AI 工作负载而设计的。它的性能比上一代提升了 10 倍，每个 pod （计算单元）的计算能力达到了令人难以置信的 42.5 exaflops——这简直令人惊叹。

正是我们深入到 TPU 的整体基础设施的优势，帮助我们在模型价格显著下降的同时，依然能够交付速度更快、性能更为卓越的模型。我们一次又一次地以最具性价比的方式提供了最出色的模型。Google 不仅在帕累托前沿上保持领先，更从根本上拓展了这一前沿。

图片

世界正在拥抱 AI

更多的智能正变得触手可及，惠及每个人，遍及每个角落。全球各地也正在以前所未有的速度响应、拥抱AI。以下是一些重要的进展：

去年同期，我们通过不同产品和 API 每月处理 9.7 万亿个令牌。而现在，这一数字已超过 480 万亿——足足增长了 50 多倍。

超过 700 万开发者正在利用 Gemini 进行构建，比去年同期多了五倍。同时，Vertex AI 上 Gemini 的使用量增长了 40倍。

Gemini 应用目前的月活跃用户已超过 4 亿。我们看到，尤其是 2.5 系列模型的使用增长强劲和用户参与度很高。其中，Gemini 应用中 2.5 Pro 的使用量更是增长了 45%。

从研究到现实

所有这些进展都昭示着我们正处于 AI 平台转变的新阶段。这意味着几十年的研究，如今正真正地成为世界各地的人们、企业和社区的现实。

Project Starline → Google Beam + 语音翻译

几年前，我们在 I/O 大会上首次展示了突破性的 3D 视频技术——Project Starline，这项技术旨在创造身临其境的感觉，即使相隔遥远，也能让人感觉置身同一房间。

我们持续取得技术进步。今天，我们将要介绍它的新篇章：Google Beam，一个全新的 AI 为先的视频通信平台。Beam 利用最先进的视频模型，通过一个由六个摄像头组成的阵列并结合 AI 技术，将 2D 视频流转换为逼真的 3D 体验，并融合视频流在 3D 光场显示器上呈现用户形象。它实现了近乎完美的头部追踪，精确到毫米，并能以每秒 60 帧的速度实时呈现。最终呈现的是更自然、更具沉浸感的对话体验。与惠普合作，首批 Google Beam 设备将于今年晚些时候向早期客户发售。

图片

多年来，我们还在 Google Meet 中创造更具沉浸感的体验。这包括将一项通过语音翻译帮助人们打破语言障碍的技术应用于 Google Meet。它能近乎实时地匹配说话者的声音、语调，甚至表情，使跨语言交流更加自然流畅。英语和西班牙语的翻译功能正在向 Google AI Pro 和 Ultra 订阅者推出 Beta 版，更多语言将在未来几周内推出。今年，这项功能也将向 Workspace 企业客户提供早期测试。

Project Astra → Gemini Live

另一个在 I/O 大会上首次亮相的令人兴奋的研究项目是 Project Astra，它旨在探索一个能够理解周围世界的通用 AI 助手。现在，Gemini Live 已整合 Project Astra 的摄像头和屏幕共享功能。人们正以有趣的方式使用它，从面试准备到马拉松训练。这项功能已向所有 Android 用户开放，并将于今天开始向 iOS 用户推出。

我们还会将这些功能引入到搜索等产品中。

Project Mariner → Agent Mode

我们认为智能体（agents）是将高级 AI 模型的智能与工具调用能力相结合的系统，因此它们可以在您的控制下代表您执行操作。

我们的早期研究原型 Project Mariner，是智能体在计算机使用能力方面的早期尝试，它可以与网络互动并为您完成任务。我们在去年 12 月发布了它的早期研究原型。此后，我们在新的多任务处理能力方面取得了很大进展，并引入了一种名为“教学与重复”的方法，即您只需向它展示一次任务，它就能学习计划未来类似的任务。我们正在通过 Gemini API 将 Project Mariner 的计算机使用功能提供给开发者。像 Automation Anywhere 和 UiPath 这样的受信任测试者已经开始使用它进行开发，今年夏天，它将在更大范围内推出。

智能体生态系统的蓬勃发展，需要我们构建一套更广泛的工具，而计算机使用是其中一部分。

例如，我们开放的 Agent2Agent 协议，旨在实现智能体之间的相互对话。此外，Anthropic 引入的模型上下文协议（Model Context Protocol），则允许智能体访问其他服务。今天，我们很高兴地宣布，我们的 Gemini API 和 SDK 现已兼容 MCP 工具。

我们还开始将智能体功能引入 Chrome、搜索和 Gemini 应用中。例如，Gemini 应用中新增的 Agent Mode 将帮助您完成更多任务。如果您正在寻找公寓，它将帮助您在 Zillow 等网站上找到符合您条件的房源，调整过滤器，并使用 MCP 访问房源，甚至为您安排看房。Gemini 应用中 Agent Mode 的实验版本将很快向订阅者推出。这对 Zillow 这样的公司来说非常有利，可以带来新客户并提高转化率。

这是一个新兴领域，我们很高兴能探索如何最好地将智能体的益处更广泛地带给用户和整个生态系统。

个性化的力量

将研究变为现实的最佳途径，是让它在您自己的现实生活中真正发挥作用。这正是个性化的强大之处。我们正在通过被称为“个人上下文”（personal context）的技术来实现这一点。在您的许可下，Gemini 模型可以以私密、透明且完全由您控制的方式，在您的 Google 应用中使用相关的个人上下文。

其中一个例子就是我们 Gmail 中新推出的个性化智能回复（Smart Replies）。如果您的朋友给您发邮件向你咨询关于您过去旅行的建议，Gemini 可以搜索您过去的邮件和 Google Drive 中的文件，例如您在 Google Docs 中创建的行程，从而建议一个包含具体细节的回复。它将匹配您典型的问候语，捕捉您的语调、风格甚至喜欢用的词语，最终生成一个更贴切、更像您本人风格的回复。个性化智能回复将于今年晚些时候向订阅者提供。不难想象，个人上下文将在搜索、Gemini 等更多产品中发挥巨大的实用价值。

搜索中的 AI Mode

我们的 Gemini 模型正在助力 Google 搜索变得更智能、更具智能体能力、更个性化。

自去年推出以来，AI Overviews 已覆盖超过 15 亿用户，目前已在 200 个国家和地区推出。随着人们使用 AI Overviews，我们发现他们对结果更满意，搜索频率也更高。在我们最大的市场，如美国和印度，AI Overviews 功能使显示该功能的查询增长超过 10%，而且这种增长还在持续。

这无疑是搜索过去十年中最成功的发布之一。

对于那些希望获得端到端 AI 搜索体验的用户，我们正在推出全新的 AI Mode。这是对搜索的彻底重塑。凭借更高级的推理能力，您可以使用 AI Mode 提出更长、更复杂的查询。事实上，早期测试者提出的查询长度是传统搜索的两到三倍，而且您可以进一步提出后续问题。这将作为新标签页直接在搜索中提供。

我一直在大量使用它，它完全改变了我使用搜索的方式。我很高兴地宣布，AI Mode 将从今天开始在美国向所有用户推出。凭借我们最新的 Gemini 模型，我们 AI 回复的质量和准确性达到了您对搜索的期望，并且是业内最快的。从本周开始，Gemini 2.5 也将登陆美国地区的搜索。

推进我们最智能的模型: Gemini 2.5

我们强大高效的主力模型 Gemini 2.5 Flash 凭借其速度和低成本深受开发者欢迎。新版 2.5 Flash 在几乎所有方面都得到了改进，在推理、多模态、代码和长上下文等关键基准测试中均有提升。它在 LMArena 排行榜上仅次于 2.5 Pro。

我们正在通过引入一种我们称之为 Deep Think 的增强推理模式，使 2.5 Pro 变得更强大。它运用了我们在思维和推理方面的最新前沿研究，包括并行思维技术。

更个性化、更主动、更强大的

Gemini 应用

我们正在让 Deep Research 更具个性化，允许您上传自己的文件，并很快连接到 Google Drive 和 Gmail，从而增强其生成定制化研究报告的能力。我们还将其与 Canvas 集成，点击一下即可创建动态信息图表、测验，甚至多种语言的播客。除此之外，我们欣喜地看到 Canvas 在氛围编程（vibe coding）方面被广泛采用，这让更多人只需通过与 Gemini 聊天，就能轻松创建功能性应用。

对于深受用户喜爱的 Gemini Live 功能，我们正在免费向所有人开放摄像头和屏幕共享功能，包括 iOS 用户。未来，它还将很快连接到您喜爱的 Google 应用，提供更无缝的帮助。

我们在生成式媒体模型方面的进展

我们推出了我们最新最先进的视频模型 Veo 3，它现在具备了原生音频生成功能。同时，我们还推出了 Imagen 4，我们最新最强大的图像生成模型。这两款模型都可以在 Gemini 应用中使用，为创意开启了一个全新的世界。

我们还将这些可能性带给电影制作人，推出了一款名为 Flow 的新工具。您可以使用它创建电影片段，并将短片扩展为更长的场景。

改善生活的机会

AI 带来的机遇确实影响深远。确保其惠及尽可能多的人，将取决于我们这一代开发者、技术专家和致力于解决问题的人。尤其令人振奋的是，想到我们今天正在进行的各项研究——从机器人技术到量子计算、AlphaFold 再到 Waymo——都将成为未来现实的基石。

我深知改善生活的机遇来之不易。最近的一次亲身经历，更是让我对此有了更深刻的感触。当时，我和我的父母在旧金山。他们做的第一件事，就是想体验一下 Waymo。我这才了解到，这正逐渐成为当地最受欢迎的旅游项目之一。我以前也坐过 Waymo，但我 80 多岁的父亲完全被震撼了；那一刻，我对这项进步有了全新的体悟。

这提醒了我，技术拥有令人难以置信的力量，能够激励、震撼并推动我们前进。我迫不及待地想看到我们接下来将共同创造的精彩。

		自动登录	找回密码
密码			禁止注册