Anthropic 发布了责任扩展政策(RSP)第三版,这是他们用于管控 AI 系统灾难性风险的自愿性框架。这次更新是对过去两年经验的深刻反思——坦诚承认哪些部分成功了,哪些失败了。
RSP 的核心逻辑
RSP 建立在**条件承诺(If-Then Commitments)**原则上:如果某个模型超过特定能力阈值(例如可以协助创建生物武器),那么就必须引入更严格的安全措施(例如更强的内容过滤)。
每套安全措施对应一个「AI 安全级别」(ASL):ASL-2 对应一组要求,ASL-3 对应更严格的要求,依此类推。
两年后的诚实评估
哪些成功了
- ✅ RSP 确实推动了更强的安全措施:为了满足 ASL-3 标准(主要关于生物/化学武器风险),开发了越来越精准的内容分类器
- ✅ ASL-3 标准确实可行:2025 年 5 月激活 ASL-3 保护措施并持续改进
- ✅ 带动了行业跟进:OpenAI 和 Google DeepMind 在数月内推出了类似框架;加州 SB 53、纽约 RAISE Act、EU AI Act 均参考了这些原则
哪些失败了
- ❌ 「能力阈值创造共识」没有实现:能力临界值比预想的模糊得多。「接近阈值」和「确实超过阈值」之间存在大量灰色地带
- ❌ 政府行动远比预期缓慢:政策环境转向优先考虑 AI 竞争力和经济增长,安全导向的讨论在联邦层面几乎没有实质进展
- ❌ 更高级别的安全措施无法单独实现:RAND 报告指出,其「SL5」安全标准(应对最顶级网络攻击者)「目前不可能」实现,需要国家安全社区协助
RSP v3 的三大核心更新
1. 分离「公司计划」与「行业建议」
RSP v3 明确区分两类承诺:
- Anthropic 自己会做什么(无论其他人做什么)
- 整个行业应该做什么(Anthropic 的建议)
这解决了一个结构性问题:之前的 RSP 把「公司能力范围内的承诺」和「需要行业协作才能实现的要求」混为一谈。
2. 前沿安全路线图(Frontier Safety Roadmap)
新版 RSP 要求制定并公开前沿安全路线图,描述在安全、对齐、保障措施和政策四个领域的具体计划。
这些目标是「非约束性但公开声明」的——Anthropic 会公开评估自己的进展。当前路线图中的一些目标:
- 「月球计划」R&D:探索实现前所未有信息安全级别的雄心勃勃方案
- 开发超越数百名 Bug Bounty 参与者集体贡献的自动化红队方法
- 实施系统性措施确保 Claude 按照其宪法行事
- 建立所有关键 AI 开发活动的综合集中记录,用 AI 分析这些记录中的潜在问题
3. 风险报告与外部审查
**风险报告(Risk Reports)**每 3-6 个月发布一次,内容超越模型能力描述,还要解释:
- 能力与威胁模型的关系
- 主动风险缓解措施
- 整体风险水平评估
在某些情况下,风险报告还需要外部专家审查:独立审查者拥有最小程度编辑的完整报告访问权,并进行公开评审。
初始风险报告已发布:feb-2026-risk-report
生物风险的「模糊地带」问题
Anthropic 以生物风险为例,展示了能力阈值为何如此难以界定:
「我们的模型现在表现出足够的生物学知识,可以通过我们能快速运行的大多数测试,所以我们不能再强有力地论证来自某个模型的风险很低。但这些测试本身也不足以强有力地论证风险很高。」
为获取更多证据,Anthropic 支持了一项大规模湿实验室试验,但结果仍然模糊——因为研究周期太长,等到研究完成,更强大的模型已经出现了。
更现实的立场
RSP v3 的核心精神是现实主义:承认某些安全目标在当前环境下 Anthropic 无法单独实现,同时坚持力所能及的部分,并公开这两者之间的差距。
「如果我们试图通过将 ASL-4 和 ASL-5 的安全措施定义为容易合规来解决这个问题——那将破坏 RSP 的初衷。」
RSP 一直都是一个活的文件:在 AI 变得更有能力之前就修订它,比等到被迫修订要好。
原文:Responsible Scaling Policy Version 3.0 | 来源:Anthropic 官方博客