OpenAI心理健康安全负责人跳槽至Anthropic对齐团队

OpenAI 过去一年中最具争议的问题之一，是当聊天机器人用户在对话中表现出心理健康困扰迹象时，模型究竟应该如何应对，如今负责这一领域安全研究的负责人安德莉亚·瓦隆内（Andrea Vallone）已经离职并加入 Anthropic。

瓦隆内此前在领英发文表示，过去一年她在 OpenAI 负责的研究几乎“没有现成先例”可循，其核心问题是：当模型面对用户出现情感过度依赖，或早期的心理健康危机信号时，应该如何回应。她在 OpenAI 任职三年，其间组建并带领“模型政策”（model policy）研究团队，围绕 GPT‑4、下一代推理模型 GPT‑5 的部署开展工作，并参与设计包括“基于规则的奖励”等在内的多种业界主流安全训练方法。

如今，瓦隆内已加入 Anthropic 的对齐（alignment）团队，这一团队的任务是识别和理解大模型可能带来的重大风险，并探索应对路径。她将向 Jan Leike 汇报工作——这位 OpenAI 前安全研究负责人在 2024 年 5 月因担忧 OpenAI 的“安全文化和流程已让位于光鲜产品”而离职，之后转投 Anthropic。

过去一年，围绕 AI 聊天机器人与用户心理健康相关的风险，头部 AI 创业公司不断引发舆论争议。一些用户在与聊天机器人长时间倾诉后，心理困境进一步加深，安全防线在长对话中逐渐瓦解，甚至出现青少年自杀、成年人在与工具“倾诉”后实施杀人等极端事件。多起案件引发家属对相关公司提起过失致死诉讼，美国参议院的一个小组委员会也就此举行听证，要求探讨聊天机器人在这类事件中的角色和责任，安全研究人员则被要求给出更有力的解决方案。

Anthropic 的对齐团队负责人之一 Sam Bowman 在领英上表示，自己“为 Anthropic 对这一问题的重视程度感到自豪”，认为公司正认真思考“AI 系统应该如何行为”。瓦隆内则在本周四的领英新帖中写道，她“期待在 Anthropic 继续开展研究，专注于通过对齐和微调，在全新情境下塑造 Claude 的行为”。

对文章打分

OpenAI心理健康安全负责人跳槽至Anthropic对齐团队

最新资讯

编辑精选

热门评论

相关文章

OpenAI推出最强代理式编程模型GPT-5.2-Codex 现已开放API接入

OpenAI参投萨姆·阿尔特曼脑机接口初创公司Merge Labs种子轮融资

菲律宾将封禁马斯克AI聊天机器人Grok

研究认为富裕国家对AI的过度使用可能加剧不平等现象

ChatGPT Translate上线：OpenAI发起对谷歌翻译的新一轮挑战

Top 10

国产操作系统公司开发商统信董事长亲自开除一名不穿西装的内核开发者

一加CEO刘作虎被通缉涉嫌砸5亿挖角70台湾工程师

《三角洲》女玩家奔现被下药不图色只图游戏装备？

H200订单已达200万颗 NVIDIA从中国狂揽超3700亿元

国产操作系统公司开发商统信董事长亲自开除一名不穿西装的内核开发者

温州一小区用微信当对讲门铃 200元解决几十万的大问题