Anthropic 发布了第三版责任扩展政策(RSP v3.0),这是 Anthropic 应对前沿 AI 风险的核心承诺文件,也是 AI 安全领域最重要的行业参考文件之一。
什么是责任扩展政策?
Anthropic 的 RSP 是一份承诺文件:在 AI 模型达到某些能力里程碑时,Anthropic 承诺采取相应安全措施。核心思想是:如果我们无法安全部署某个能力水平的模型,就不应该训练它。
v3.0 是这一活文件的第三次修订,增加了透明度、更新了评估方法,并首次将 Anthropic 的个人承诺与对整个行业的建议分开。
ASL 评级体系
| 级别 | 描述 |
|---|---|
| ASL-1 | 能力不超过公开可用模型,风险最低 |
| ASL-2 | 在某些危险领域有初步能力,但不会显著提升现有威胁 |
| ASL-3 | 能显著帮助非国家行为者造成大规模破坏性事件 |
| ASL-4+ | 更高级别,目前尚未达到 |
当前 Claude 3.5 Sonnet 和 Claude 3.5 Haiku 评定为 ASL-2。
v3.0 三大核心更新
1. 更透明的安全承诺
关键承诺:
- 升级触发:模型在 ASL-3 相关能力上表现出「实质性进展」,即使尚未完全满足阈值,也触发加强安全措施
- 训练暂停:如果无法在 6 个月内部署满足 ASL-4 要求的安全措施,将暂停更大规模模型训练
- 评估时间表:每次前沿训练运行前和部署前都必须进行安全评估
2. 新增「风险报告」机制
v3.0 最重要的新增机制是定期发布公开风险报告:
- 当前模型的 ASL 评定结果和推理
- 生化武器、网络安全等危险能力的评估数据
- 当前安全措施与更理想措施之间的差距
- 对 AI 安全研究现状的客观评估
首份风险报告已随 v3.0 一起发布(2026 年 2 月)。
3. 区分个人承诺与行业建议
Anthropic 自身承诺:Anthropic 能切实实施和核实的具体措施。
对行业的建议:
- 建立独立的第三方 AI 安全评估机构
- 开发跨组织安全标准和协议
- 建立行业级事故响应机制
生化武器和网络安全评估
生化武器
Anthropic 聘请独立生物安全专家,设计了模拟恶意行为者工作流的测试,比较 Claude 与其他信息来源(搜索引擎、教科书)的帮助程度差异。
当前结论:Claude 3.5 系列不满足 ASL-3 阈值,但某些子任务表现令人担忧,持续监控中。
网络安全
评估 Claude 是否能显著降低高危攻击门槛,包括零日漏洞开发、关键基础设施攻击辅助等。当前评估未满足 ASL-3 阈值。
自主性风险
v3.0 新增了 AI 自主性风险评估:即 AI 在没有人类监督的情况下自主行动、积累资源或影响力的能力。当前 Claude 3.5 不满足 ASL-3 自主性阈值。
对 AI 行业的意义
- 透明化先例:公开风险报告让外界能评估安全措施是否与声明一致
- 行业协调基础:明确区分个人承诺和行业建议,为跨公司安全标准提供框架
- 可验证的承诺:训练暂停等具体承诺,降低「安全洗白」的空间
原文:Anthropic Responsible Scaling Policy v3.0 | 来源:Anthropic 官方博客