多项研究揭示推理错觉:谜题越复杂准确率越低 AI逻辑测试不及格

2025年06月13日 10:40 次阅读 稿源:cnBeta.COM 条评论

越来越多的人工智能公司声称他们的模型能够推理。但最近的两项研究却得出了相反的结论。当被要求展示它们的逻辑时,大多数模型都失败了——这证明它们与其说是在推理,不如说是在重复模式。结果是答案虽然自信满满,但并不智能。

苹果研究人员发现了当今最受热捧的人工智能系统的一个关键弱点——它们在解决需要逐步推理的难题时表现不佳。在一篇新论文中,该团队在古老的逻辑谜题“汉诺塔”上测试了几个领先的模型,发现随着复杂性的增加,性能会下降。

汉诺塔谜题很简单:将一叠圆盘从一个桩子移到另一个桩子,同时遵循有关顺序和圆盘大小的规则。对于人类来说,这是一项经典的规划和递归逻辑测试。对于经过训练以预测下一个标记的语言模型来说,挑战在于如何在多个步骤中应用固定的约束,同时又不偏离目标。

苹果的研究人员不仅要求模型解答谜题,还要求它们解释解题步骤。虽然大多数模型只处理了两三个圆盘,但随着圆盘数量的增加,它们的逻辑开始瓦解。模型会错误地陈述规则,与之前的步骤相矛盾,或者自信地做出无效的移动——即使在思路链提示下也是如此。简而言之,它们不是在推理,而是在猜测。

这一发现与今年4月的一项研究相呼应。当时,苏黎世联邦理工学院(ETH Zurich)和INSAIT的研究人员对顶尖的人工智能模型进行了测试,以解决2025年美国数学奥林匹克竞赛(一项要求提供完整书面证明的竞赛)的题目。在近200次尝试中,没有一个模型能给出完美的解决方案。其中表现较强的GoogleGemini 2.5 Pro获得了总分的24%——这并非通过解决24%的题目,而是通过每次尝试都获得部分分数。OpenAI的o3-mini仅勉强获得了2%的分数。

这些模型不仅会错过答案,还会犯一些基本错误,跳过一些步骤,甚至在自信满满的同时自相矛盾。在一个问题中,一个模型一开始表现很好,但却在没有任何解释的情况下排除了有效案例。其他模型则根据训练的怪癖设计了一些约束条件,比如始终将最终答案框起来——即使它与上下文不符。

长期以来一直批评人工智能炒作的加里·马库斯 (Gary Marcus)苹果的发现“对大型语言模型具有毁灭性的影响”。

    他写道:“大语言模型无法可靠地解决河内问题,这真是令人尴尬。如果你不能用一个价值数十亿美元的人工智能系统来解决一个问题,而这个问题正是‘人工智能教父’之一赫伯·西蒙在1957年用人工智能解决的,而且也是人工智能学生在第一学期就能解决的,那么像克劳德或o3这样的模型实现通用人工智能的可能性就显得微乎其微了。”

    即使给出了明确的算法,模型性能也没有提高。该研究的联合负责人伊曼·米尔扎德(Iman Mirzadeh)直言不讳:“他们的流程不合逻辑,也不智能。”

    结果表明,看似推理的往往只是模式匹配——统计上流畅,但没有逻辑依据。

    并非所有专家都对此不屑一顾。专门研究人工智能系统的软件工程师 Sean Goedecke 认为这次失败具有启发意义

    “模型会立即认定‘手动生成所有这些步骤是不可能的’,因为这需要追踪一千多个步骤。所以它不停地寻找捷径,最终失败了,”他在对苹果研究的分析中写道。“这里的关键洞察是,超过一定的复杂度阈值后,模型会认为推理步骤太多,于是开始寻找巧妙的捷径。所以,超过八九个磁盘后,被考察的技能会悄无声息地从‘模型能否推理汉诺塔序列?’转变为‘模型能否提出一个通用的汉诺塔解决方案,从而跳过对序列的推理?’”

    Goedecke 认为,这些发现并非证明模型在推理方面毫无希望,而是凸显了人工智能系统如何在压力下调整其行为——有时很聪明,有时则不然。失败不仅在于循序渐进的推理,还在于当推理变得过于复杂时就放弃任务。

    科技公司经常强调模拟推理是一项突破。苹果的论文证实,即使是针对思维链推理进行微调的模型,一旦认知负荷增加,也往往会遇到瓶颈——例如,在汉诺塔游戏中追踪超过六个圆盘的移动时。这些模型的内部逻辑会瓦解,有些模型只能通过模仿理性解释来取得部分成功。很少有模型能够始终如一地理解因果关系或目标导向的行为。

    苹果和苏黎世联邦理工学院的研究结果与各大公司宣传这些模型的方式形成了鲜明对比——这些模型被宣传为能够处理复杂、多步骤任务的强大推理器。实际上,所谓的推理通常只是带有额外步骤的高级自动完成功能。智能的假象源于流畅性和格式,而非真正的洞察力。

    苹果的论文并未提出全面的解决方案。然而,它与日益增长的混合方法呼声相呼应,这些方法将大型语言模型与符号逻辑、验证器或特定于任务的约束相结合。这些方法或许无法让人工智能真正变得智能,但它们可以帮助防止将错误答案当作事实。

    在这些进步真正实现之前,模拟推理很可能仍停留在名称所暗示的阶段:模拟。它很有用——有时甚至令人印象深刻——但远非真正的智能。

    对文章打分

    多项研究揭示推理错觉:谜题越复杂准确率越低 AI逻辑测试不及格

    1 (50%)
    已有 条意见

      最新资讯

      加载中...

      编辑精选

      加载中...

      热门评论

        Top 10

        招聘

        created by ceallan