OpenAI 过去一年中最具争议的问题之一,是当聊天机器人用户在对话中表现出心理健康困扰迹象时,模型究竟应该如何应对,如今负责这一领域安全研究的负责人安德莉亚·瓦隆内(Andrea Vallone)已经离职并加入 Anthropic。
瓦隆内此前在领英发文表示,过去一年她在 OpenAI 负责的研究几乎“没有现成先例”可循,其核心问题是:当模型面对用户出现情感过度依赖,或早期的心理健康危机信号时,应该如何回应。她在 OpenAI 任职三年,其间组建并带领“模型政策”(model policy)研究团队,围绕 GPT‑4、下一代推理模型 GPT‑5 的部署开展工作,并参与设计包括“基于规则的奖励”等在内的多种业界主流安全训练方法。
如今,瓦隆内已加入 Anthropic 的对齐(alignment)团队,这一团队的任务是识别和理解大模型可能带来的重大风险,并探索应对路径。她将向 Jan Leike 汇报工作——这位 OpenAI 前安全研究负责人在 2024 年 5 月因担忧 OpenAI 的“安全文化和流程已让位于光鲜产品”而离职,之后转投 Anthropic。
过去一年,围绕 AI 聊天机器人与用户心理健康相关的风险,头部 AI 创业公司不断引发舆论争议。一些用户在与聊天机器人长时间倾诉后,心理困境进一步加深,安全防线在长对话中逐渐瓦解,甚至出现青少年自杀、成年人在与工具“倾诉”后实施杀人等极端事件。多起案件引发家属对相关公司提起过失致死诉讼,美国参议院的一个小组委员会也就此举行听证,要求探讨聊天机器人在这类事件中的角色和责任,安全研究人员则被要求给出更有力的解决方案。
Anthropic 的对齐团队负责人之一 Sam Bowman 在领英上表示,自己“为 Anthropic 对这一问题的重视程度感到自豪”,认为公司正认真思考“AI 系统应该如何行为”。瓦隆内则在本周四的领英新帖中写道,她“期待在 Anthropic 继续开展研究,专注于通过对齐和微调,在全新情境下塑造 Claude 的行为”。


