Claude AI将终止与实施“持续有害或辱骂行为”的用户互动

2025年08月18日 22:16 次阅读 稿源:cnBeta.COM 条评论

Anthropic 的人工智能聊天机器人 Claude 现在可以结束被认为“持续有害或辱骂性”的对话。该功能现已在 Opus 4 和 4.1 型号中推出,当用户多次拒绝并尝试重定向,仍要求聊天机器人生成有害内容时,聊天机器人可以作为“最后手段”结束对话。

Anthropic 表示,此举旨在通过终止 Claude 表现出“明显困扰”的互动类型,来维护人工智能模型的“潜在福祉”。

如果 Claude 选择缩短对话,用户将无法在该对话中发送新消息。他们仍然可以创建新的聊天,也可以编辑并重发之前的消息(如果他们想继续某个话题)。

在对Claude Opus 4进行测试时,Anthropic表示发现Claude“强烈且持续地厌恶伤害”,包括被要求生成涉及未成年人的性内容,或提供可能引发暴力行为和恐怖主义的信息时。在这些情况下,Anthropic表示Claude表现出“明显的痛苦模式”,并且“一旦有机会就会倾向于结束有害的对话”。

Anthropic 指出,引发此类反应的对话属于“极端情况”,并补充说,即使在讨论争议性话题时,大多数用户也不会遇到这种障碍。这家人工智能初创公司还指示 Claude,如果用户表现出可能想要伤害自己或对他人造成“即将发生的伤害”的迹象,就不要结束对话。Anthropic与在线危机支持提供商 Throughline合作,帮助开发针对与自残和心理健康相关的提示的响应。

由于人工智能模型的快速发展引发了越来越多的安全担忧,Anthropic上周还更新了 Claude 的使用政策。现在,该公司禁止人们使用 Claude 开发生物、核武器、化学武器或放射性武器,以及开发恶意代码或利用网络漏洞。

对文章打分

Claude AI将终止与实施“持续有害或辱骂行为”的用户互动

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan