所有这些进展都昭示着我们正处于 AI 平台转变的新阶段。这意味着几十年的研究,如今正真正地成为世界各地的人们、企业和社区的现实。
Project Starline → Google Beam + 语音翻译
几年前,我们在 I/O 大会上首次展示了 突破性的 3D 视频技术——Project Starline,这项技术旨在创造身临其境的感觉,即使相隔遥远,也能让人感觉置身同一房间。
我们持续取得技术进步。今天,我们将要介绍它的新篇章:Google Beam,一个全新的 AI 为先的视频通信平台。Beam 利用最先进的视频模型,通过一个由六个摄像头组成的阵列并结合 AI 技术,将 2D 视频流转换为逼真的 3D 体验,并融合视频流在 3D 光场显示器上呈现用户形象。它实现了近乎完美的头部追踪,精确到毫米,并能以每秒 60 帧的速度实时呈现。最终呈现的是更自然、更具沉浸感的对话体验。与惠普合作,首批 Google Beam 设备将于今年晚些时候向早期客户发售。
图片
多年来,我们还在 Google Meet 中创造更具沉浸感的体验。这包括将一项通过语音翻译帮助人们打破语言障碍的技术应用于 Google Meet。它能近乎实时地匹配说话者的声音、语调,甚至表情,使跨语言交流更加自然流畅。英语和西班牙语的翻译功能正在向 Google AI Pro 和 Ultra 订阅者推出 Beta 版,更多语言将在未来几周内推出。今年,这项功能也将向 Workspace 企业客户提供早期测试。
Project Astra → Gemini Live
另一个在 I/O 大会上首次亮相的令人兴奋的研究项目是 Project Astra,它旨在探索一个能够理解周围世界的通用 AI 助手。现在,Gemini Live 已整合 Project Astra 的摄像头和屏幕共享功能。人们正以有趣的方式使用它,从面试准备到马拉松训练。这项功能已向所有 Android 用户开放,并将于今天开始向 iOS 用户推出。
我们还会将这些功能引入到搜索等产品中。
Project Mariner → Agent Mode
我们认为智能体(agents)是将高级 AI 模型的智能与工具调用能力相结合的系统,因此它们可以在您的控制下代表您执行操作。
我们正在通过引入一种我们称之为 Deep Think 的增强推理模式,使 2.5 Pro 变得更强大。它运用了我们在思维和推理方面的最新前沿研究,包括并行思维技术。
更个性化、更主动、更强大的
Gemini 应用
我们正在让 Deep Research 更具个性化,允许您上传自己的文件,并很快连接到 Google Drive 和 Gmail,从而增强其生成定制化研究报告的能力。我们还将其与 Canvas 集成,点击一下即可创建动态信息图表、测验,甚至多种语言的播客。除此之外,我们欣喜地看到 Canvas 在氛围编程(vibe coding)方面被广泛采用,这让更多人只需通过与 Gemini 聊天,就能轻松创建功能性应用。
对于深受用户喜爱的 Gemini Live 功能,我们正在免费向所有人开放摄像头和屏幕共享功能,包括 iOS 用户。未来,它还将很快连接到您喜爱的 Google 应用,提供更无缝的帮助。