OpenAI称GPT-5在众多职业领域表现比肩人类

2025年09月26日 01:48 次阅读 稿源:环球市场播报 条评论

OpenAI 于周四发布一项新基准测试,旨在评估其人工智能模型在各类行业及职业中与人类专业人士的表现差异。这项名为 GDPval 的测试,是该公司为了解自身系统在 “高经济价值工作” 上与人类表现的接近程度所做的初步尝试 —— 而实现这一目标,正是 OpenAI 成立使命中 “研发通用人工智能(AGI)” 的关键组成部分。

OpenAI 表示,研究发现其 GPT-5 模型及 Anthropic 公司的 Claude Opus 4.1 模型 “在工作质量上已接近行业专家水平”。

但这并不意味着 OpenAI 的模型即将立即取代人类岗位。尽管部分首席执行官预测人工智能将在数年内取代人类工作,但 OpenAI 承认,目前 GDPval 测试仅覆盖了人类实际工作中极为有限的一部分任务。不过,这仍是该公司衡量人工智能向 “超越人类” 这一里程碑迈进的最新方式之一。

GDPval 测试基于对美国国内生产总值(GDP)贡献最大的 9 个行业,涵盖医疗健康、金融、制造业、政府服务等领域。该基准测试评估人工智能模型在这些行业的 44 种职业中的表现,职业范围从软件工程师、护士到记者不等。

在 GDPval 测试的首个版本(GDPval-v0)中,OpenAI 邀请资深专业人士对人工智能生成的报告与其他人类专业人士生成的报告进行对比,并选出表现更优的一份。例如,其中一项测试要求投资银行家撰写 “最后一公里配送行业” 的竞争对手分析报告,并将其与人工智能生成的报告对比。随后,OpenAI 会计算该人工智能模型在所有 44 种职业的测试中,其报告 “优于或与人类报告持平” 的胜率平均值。

对于 GPT-5 的增强版本 ——GPT-5-high(配备额外计算能力),OpenAI 表示该模型在 40.6% 的测试场景中,表现被评定为 “优于或与行业专家持平”。

OpenAI 还对 Anthropic 公司的 Claude Opus 4.1 模型进行了测试,结果显示该模型在 49% 的任务中表现 “优于或与行业专家持平”。不过 OpenAI 认为,Claude 能取得如此高的评分,更多是因为其擅长生成视觉效果出色的图表,而非单纯依靠任务表现本身。

值得注意的是,大多数职场人士的工作远不止 “向老板提交研究报告”—— 而这正是 GDPval-v0 测试的全部内容。OpenAI 也承认这一局限性,并表示计划在未来开发更全面的测试,纳入更多行业及交互式工作流程的评估。

尽管如此,OpenAI 仍认为在 GDPval 测试中取得的进展值得关注。

在接受 TechCrunch(科技媒体)采访时,OpenAI 首席经济学家亚伦・查特吉(Aaron Chatterji)博士表示,GDPval 的测试结果表明,从事这些职业的人如今可以借助人工智能模型,将时间投入到更有意义的任务中。

“(因为)模型在这些任务上的表现越来越出色,” 查特吉说,“随着模型能力的不断提升,从事这些工作的人可以越来越多地借助模型分担部分工作,进而去完成潜在价值更高的任务。”

OpenAI 评估部门负责人特贾尔・帕特瓦丹(Tejal Patwardhan)向 TechCrunch 表示,GDPval 测试中展现的进步速度让她备受鼓舞。约 15 个月前发布的 OpenAI GPT-4o 模型,在该测试中 “优于或与人类持平” 的胜率仅为 13.7%;而如今 GPT-5 的胜率几乎是其 3 倍,帕特瓦丹预计这一上升趋势还将持续。

硅谷拥有多种用于衡量人工智能模型进展、判断某一模型是否达到 “最先进水平” 的基准测试,其中最受欢迎的包括 AIME 2025(竞争性数学题测试)和 GPQA Diamond(博士级科学问题测试)。然而,部分人工智能模型在这些基准测试中已接近 “性能饱和”,许多人工智能研究者表示,亟需更完善的测试来评估模型在实际任务中的能力。

随着 OpenAI 不断证明其人工智能模型对多个行业具有实用价值,GDPval 这类基准测试在相关讨论中的重要性可能会日益提升。但要明确宣称其人工智能模型能超越人类,OpenAI 或许还需要推出更全面的测试版本。

对文章打分

OpenAI称GPT-5在众多职业领域表现比肩人类

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      招聘

      created by ceallan