Google推出Gemini 2.5 Deep Think模型性能超越OpenAI o3和Grok 4

今天，Google宣布在 Gemini 应用程序中面向 Google AI Ultra 订阅用户推出 Gemini 2.5 Deep Think 模型。该新模型在多个关键基准测试中超越了OpenAI 的 o3 模型和xAI 的 Gork 4模型。

早在 5 月份的 Google I/O 2025 大会上，Google就首次发布了Gemini 2.5 Pro 深度思考模式，该模式采用了新的研究技术，能够在做出响应之前考虑多种假设。今天推出的是一个更新的深度思考模型，其中包含基于早期可靠测试人员的反馈和最新研究突破的改进。Google声称，更新后的深度思考模型比 I/O 大会上首次发布的版本有了显著改进。

Google还透露，这款新的 Deep Think 模型是最近在今年国际数学奥林匹克 (IMO) 比赛中获得金牌的模型的变种。为了使其适合日常使用，Google对其进行了速度提升，因此在 2025 年 IMO 基准测试中，其性能仅达到铜牌级别。

如上图基准测试所示，Gemini 2.5 Deep Think 在 LiveCodeBench V6、Humanity's Last Exam、IMO 2025 和 AIME 2025 中均取得了优异的表现。

Google AI Ultra 订阅用户现在可以在 Gemini 应用中使用 Deep Think，每天使用固定数量的提示，方法是使用选择 Gemini 2.5 Pro 型号时提示栏中出现的“Deep Think”选项。Google 指出，Deep Think 可自动与代码执行和 Google 搜索等工具配合使用。Google 还计划在未来几周内通过 Gemini API 向一组值得信赖的开发者发布带工具和不带工具的 Deep Think。

现在最大的问题是即将推出的OpenAI GPT-5模型是否会在关键基准测试结果中反超 Gemini 2.5 Deep Think。

对文章打分

Google推出Gemini 2.5 Deep Think模型性能超越OpenAI o3和Grok 4

最新资讯

编辑精选

热门评论

相关文章

有开发者不慎泄露Gemini API后收到8.2万美元账单 Google不愿意减免费用

Google发布Gemini 3.1 Flash-Lite 主打“快与省” 性能碾压 2.5 Flash

Google在明尼苏达建设依靠风能、太阳能和铁锈反应电池的新数据中心

Google与OpenAI员工发表公开信支持Anthropic在五角大楼事件中的立场

Google与三星共同展示Gemini智能体的能力

Google Translate引入更多Gemini AI功能强化学习与语境理解能力

Top 10

微信新能力上线可查图片使用次数

极客湾疑似遭"全网封杀"!背后力量深不可测？

极客湾遭"封杀"引热议连YouTube视频都下架了

微信新能力上线可查图片使用次数

苹果不再允许用户扛着MacBook到苹果零售店拷贝Final Cut Pro

极客湾疑似遭"全网封杀"!背后力量深不可测？

对文章打分

Google推出Gemini 2.5 Deep Think模型 性能超越OpenAI o3和Grok 4

最新资讯

编辑精选

热门评论

相关文章

Top 10

Google推出Gemini 2.5 Deep Think模型性能超越OpenAI o3和Grok 4