Google的秘密AI模型未来很可能在难题数学领域打败人类

在硅谷正在进行的开发具有类似人类反应的人工智能模型的竞赛中，Google分享了其 Gemini 1.5 Pro 模型的最新数据。与 ChatGPT 一样，Gemini 也使用人工智能来解决问题，而这一次，Google吹捧的是其产品的数学能力。人工智能模型因其解决大学水平任务的能力而成为衡量其"智力"的标准，Google的研究论文显示该模型提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。

上周，双子座人工智能模型的最新技术报告公布了其最新数学成绩的详细信息。这份相当厚重的文件显示，Google打算模仿数学家接受的训练来解决复杂的问题，为了实现这一目标，该公司对其双子座人工智能模型进行了专门的变体训练。

Gemini 1.5 Pro 的数学变体似乎经过了多项基准测试。根据其文件，Google依靠各种基准来评估其最新人工智能数学模型的输出。这些基准包括 MATH 基准、美国数学邀请考试 (American Invitational Mathematics Examination, AIME) 和Google内部的 HiddenMath 基准。

根据Google的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现"与人类专家的表现相当"，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多，在其他基准测试中的得分也有所提高。

GOOGLE-GEMINI-MATH-1.5-PRO-1456x592.png

GOOGLE-GEMINI-MATH-1.5-PRO-1-1456x608.png

Google还举例说明了 Gemini 1.5 Pro 所解决的问题。根据该文件，这些问题是"Gemini 1.5 Pro、GPT-4 Turbo 和以前所有 Gemini 型号都没有正确解决的问题"，最终提高了Google产品的性能标准。

在它分享的三个示例中，两个是由数学专用的 Gemini 1.5 Pro 解决的，而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式，并依靠它们的分段和其他数学规则得出正确答案。

除了问题之外，Google还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明，在所有五项基准测试成绩中，Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

据Google公司称，其数学专用变体能够"从单个样本中获得 80.6% 的 MATH 基准准确率，在对 256 个解决方案进行采样并选择一个候选答案时（rm@256），准确率达到91.1%"，这一成就使其与人类专家处于同等水平。事实上，根据Google深度思维首席科学家杰夫-迪恩（Jeff Dean）的说法，数学模型91.1%的得分大大高于三年前仅为6.9%的"SOTA"（最先进水平）得分。

对文章打分

Google的秘密AI模型未来很可能在难题数学领域打败人类

最新资讯

编辑精选

热门评论

相关文章

谷歌剥离光纤业务GFiber 仍将持有少数股权

Google完成对云安全创业公司Wiz的320亿美元收购

波音称线路缺陷将导致部分737 MAX交付延迟

Google为Docs、Sheets、Slides和Drive上线新一代Gemini功能

Google授予CEO皮查伊高达6.92亿美元薪酬方案绩效考核曝光

诉讼指控：Google Gemini诱导用户自杀

Top 10

联想新一代T系列ThinkPad维修性拿下满分10/10

OpenAI推出GPT‑5.4 面向专业工作的新一代旗舰模型

陈冠希为女庆生苍老面容引关注都是为了孩子？

微信新能力上线可查图片使用次数

极客湾疑似遭"全网封杀"!背后力量深不可测？

极客湾遭"封杀"引热议连YouTube视频都下架了