除了在学术基准测试中的出色表现外,新的 2.5 Pro 现在正领跑流行的编码排行榜 WebDev Arena,ELO 分数为 1415。它还在 LMArena 排行榜的所有类别中处于领先地位,该排行榜评估人类在不同维度上的偏好。而且,凭借其百万级令牌的上下文窗口,2.5 Pro 拥有最先进的长上下文和视频理解性能。
自从融入了与教育专家合作构建的学习模型系列 LearnLM 以来,2.5 Pro 现已成为领先的学习模型。在对其教学法和有效性进行的直接比较中,教育工作者和专家在各种场景下都更青睐 Gemini 2.5 Pro,而非其他模型。并且,在构建用于辅助学习的 AI 系统的学习科学的五项原则中,它在每一项上都超越了顶级模型。
Deep Think
通过探索 Gemini 思维能力的边界,我们开始测试 Deep Think 的增强推理模式,它采用新的研究技术,使模型能够在回应之前考虑多种假设。
2.5 Pro Deep Think 在目前最难的数学基准之一 2025 USAMO 上取得了令人印象深刻的分数。它还在一个针对竞赛级编程的难度基准—— LiveCodeBench 上处于领先地位,并在测试多模态推理的 MMMU 上取得了 84.0% 的分数。
图片
由于 2.5 Pro DeepThink 是一项非常前沿的技术,我们正在额外花费时间进行更多的前沿安全评估,并从安全专家那里获得进一步的反馈。作为其中的一部分,我们将在广泛发布之前,通过 Gemini API 将其提供给受信任的测试人员,以获取他们的反馈。