OpenAI已全面评估AI对各行各业的工作替代

2025年09月30日 14:22 次阅读 稿源:华尔街见闻 条评论

一项来自OpenAI的最新评估显示,AI在执行具有经济价值的工作任务方面正迅速追赶,甚至逼近人类专业人员的水平。据报道,OpenAI于周四发布了一款名为GDPval-v0的全新评估工具。该工具旨在衡量AI模型在完成法律文书、工程蓝图和护理计划等“真实工作交付成果”时的表现。

blog-banner-96.png

该研究覆盖了在美国国内生产总值(GDP)中占比较大的九个商业领域,涉及44个职业中的约1300项具体工作任务。结果显示,当前最顶尖的AI模型在执行许多职业任务时,其能力已与人类专业人士相当,并且这种能力的提升速度正在加快。

在GDPval-v0发布后,前OpenAI政策总监、Anthropic联合创始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中,全面地评估了GDPval的研究过程和结果。

GDPval或成衡量AI经济价值的全新标尺

据文章介绍,GDPval基准测试涵盖了1230个专业任务,涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业,每一个任务都由平均拥有超过14年行业经验的资深专业人士精心设计和审核。

Clark指出,这份清单几乎囊括了现代经济中所有关键的知识密集型岗位,表明AI公司正有条不紊地测试其系统在经济各个“生态位”的适应能力。

文章还表示,该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。

为了模拟真实世界工作的复杂性,GDPval的任务并非简单的文本问答,而是带有参考文件和上下文,要求AI交付的成果也多种多样,包括文档、幻灯片、图表和电子表格等。

评估结果直接量化了AI的能力边界。数据显示,Claude Opus 4.1在与人类专家的比较中,取得了47.6%的“胜利或平局”率,排名第一。紧随其后的是GPT-5-high(38.8%)和o3 high(34.1%)。

这些数据表明,AI在处理复杂的专业知识工作时,其质量已达到甚至在某些情况下超过了经验丰富的人类。

Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。

公开资料显示,SWE-Bench于2024年11月推出,旨在评估AI模型的编程能力。该基准测试采用了从12个不同Python项目的GitHub公开仓库中提取的2000多个真实编程问题作为评测依据。

Screenshot-2025-09-25-at-1.11.24-PM-1024x626.webp

以下是Clark的博文节选,由AI工具辅助翻译:

评估世界经济;奇点经济学;以及瑞士主权AI

作者:Jack Clark

OpenAI构建了一个评估系统,对广泛经济的意义就如同SWE-Bench对代码的意义: …GDPval是一个非常好的基准测试,具有极其重要的意义…

OpenAI构建并发布了GDPval,这是一个制作精良的基准测试,用于测试AI系统在现实世界经济中人们从事的各种任务上的表现。就评估而言,GDPval对广泛的现实世界经济影响的意义,可能相当于SWE-Bench对编程影响的意义——这是一件大事!

它是什么:GDPval“衡量模型在直接来自现实世界的任务上的表现,这些任务涉及各行各业经验丰富专业人士的知识工作,为模型在经济价值任务上的表现提供更清晰的画面。”

该基准测试涵盖9个行业的44个职业,包括1,230个专业任务,“每个任务都由平均拥有超过14年经验的经验丰富专业人士精心制作和审核”。数据集“包括每个职业的30个经过全面审核的任务(完整集),以及我们开源黄金集中每个职业的5个任务”。

该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。他们写道:“GDPval的任务不是简单的文本提示。它们带有参考文件和上下文,预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使GDPval成为模型如何支持专业人士的更现实测试。”

“为了评估模型在GDPval任务上的表现,我们依靠专家‘评分员’——一群来自数据集中代表的相同职业的经验专业人士。这些评分员盲目比较模型生成的交付成果与任务编写者产生的成果(不知道哪个是AI生成的,哪个是人类生成的),并提供批评和排名。评分员随后对人类和AI交付成果进行排名,并将每个AI交付成果分类为‘更好’、‘同样好’或‘不如’彼此,”作者写道。

结果:“我们发现今天最好的前沿模型已经接近行业专家产生的工作质量,”作者写道。Claude Opus 4.1排名第一,与人类工作相比的总体胜利或平局率为47.6%,其次是GPT-5-high的38.8%,以及o3 high的34.1%。

更快更便宜:更重要的是,“我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍,成本便宜约100倍。”

GDPval包含哪些类型的工作?

• 房地产和租赁业:礼宾员;物业、房地产和社区协会经理;房地产销售代理;房地产经纪人;柜台和租赁店员。

• 政府部门:娱乐工作者;合规官员;警察和侦探一线主管;行政服务经理;儿童、家庭和学校社会工作者。

• 制造业:机械工程师;工业工程师;采购员和采购代理;运输、接收和库存店员;生产和操作工人一线主管。

• 专业、科学和技术服务:软件开发人员;律师;会计师和审计师;计算机和信息系统经理;项目管理专家。

• 医疗保健和社会援助:注册护士;执业护士;医疗和健康服务经理;办公室和行政支持工人一线主管;医疗秘书和行政助理。

• 金融和保险:客户服务代表;金融和投资分析师;财务经理;个人理财顾问;证券、商品和金融服务销售代理。

• 零售贸易:药剂师;零售销售工人一线主管;总经理和运营经理;私人侦探和调查员。

• 批发贸易:销售经理;订单店员;非零售销售工人一线主管;批发和制造销售代表,不包括技术和科学产品;批发和制造销售代表,技术和科学产品。

• 信息业:音频和视频技术员;制片人和导演;新闻分析师、记者和新闻工作者;电影和视频编辑;编辑。

为什么这很重要——AI公司正在构建系统进入经济的每一个部分:此时我希望读者想象我站在华盛顿特区中心,举着一个巨大的标牌,上面写着:AI公司正在构建基准测试,旨在测试他们的系统在经济中各种工作上的表现——而且它们已经非常出色了!

这并不正常!我们正在通过生态有效的基准测试,对系统在极其广泛的行为范围内进行测试,这些基准最终告诉我们这些系统能够多好地融入世界上约44个不同的“生态经济生态位”,我们发现它们已经非常接近与人类表现相同的水平——这还只是基于今天的模型。很快,它们在这些任务上将超越许多人类。然后会怎样?什么都不会发生?不!经济将发生极其奇异的变化!

对文章打分

OpenAI已全面评估AI对各行各业的工作替代

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan