Anthropic RSP v3.0 解析：AI 安全政策的现实主义重构

Anthropic 发布了责任扩展政策（RSP）第三版，这是他们用于管控 AI 系统灾难性风险的自愿性框架。这次更新是对过去两年经验的深刻反思——坦诚承认哪些部分成功了，哪些失败了。

RSP 的核心逻辑

RSP 建立在**条件承诺（If-Then Commitments）**原则上：如果某个模型超过特定能力阈值（例如可以协助创建生物武器），那么就必须引入更严格的安全措施（例如更强的内容过滤）。

每套安全措施对应一个「AI 安全级别」（ASL）：ASL-2 对应一组要求，ASL-3 对应更严格的要求，依此类推。

两年后的诚实评估

哪些成功了

✅ RSP 确实推动了更强的安全措施：为了满足 ASL-3 标准（主要关于生物/化学武器风险），开发了越来越精准的内容分类器
✅ ASL-3 标准确实可行：2025 年 5 月激活 ASL-3 保护措施并持续改进
✅ 带动了行业跟进：OpenAI 和 Google DeepMind 在数月内推出了类似框架；加州 SB 53、纽约 RAISE Act、EU AI Act 均参考了这些原则

哪些失败了

❌ 「能力阈值创造共识」没有实现：能力临界值比预想的模糊得多。「接近阈值」和「确实超过阈值」之间存在大量灰色地带
❌ 政府行动远比预期缓慢：政策环境转向优先考虑 AI 竞争力和经济增长，安全导向的讨论在联邦层面几乎没有实质进展
❌ 更高级别的安全措施无法单独实现：RAND 报告指出，其「SL5」安全标准（应对最顶级网络攻击者）「目前不可能」实现，需要国家安全社区协助

RSP v3 的三大核心更新

1. 分离「公司计划」与「行业建议」

RSP v3 明确区分两类承诺：

Anthropic 自己会做什么（无论其他人做什么）
整个行业应该做什么（Anthropic 的建议）

这解决了一个结构性问题：之前的 RSP 把「公司能力范围内的承诺」和「需要行业协作才能实现的要求」混为一谈。

2. 前沿安全路线图（Frontier Safety Roadmap）

新版 RSP 要求制定并公开前沿安全路线图，描述在安全、对齐、保障措施和政策四个领域的具体计划。

这些目标是「非约束性但公开声明」的——Anthropic 会公开评估自己的进展。当前路线图中的一些目标：

「月球计划」R&D：探索实现前所未有信息安全级别的雄心勃勃方案
开发超越数百名 Bug Bounty 参与者集体贡献的自动化红队方法
实施系统性措施确保 Claude 按照其宪法行事
建立所有关键 AI 开发活动的综合集中记录，用 AI 分析这些记录中的潜在问题

3. 风险报告与外部审查

**风险报告（Risk Reports）**每 3-6 个月发布一次，内容超越模型能力描述，还要解释：

能力与威胁模型的关系
主动风险缓解措施
整体风险水平评估

在某些情况下，风险报告还需要外部专家审查：独立审查者拥有最小程度编辑的完整报告访问权，并进行公开评审。

初始风险报告已发布：feb-2026-risk-report

生物风险的「模糊地带」问题

Anthropic 以生物风险为例，展示了能力阈值为何如此难以界定：

「我们的模型现在表现出足够的生物学知识，可以通过我们能快速运行的大多数测试，所以我们不能再强有力地论证来自某个模型的风险很低。但这些测试本身也不足以强有力地论证风险很高。」

为获取更多证据，Anthropic 支持了一项大规模湿实验室试验，但结果仍然模糊——因为研究周期太长，等到研究完成，更强大的模型已经出现了。

更现实的立场

RSP v3 的核心精神是现实主义：承认某些安全目标在当前环境下 Anthropic 无法单独实现，同时坚持力所能及的部分，并公开这两者之间的差距。

「如果我们试图通过将 ASL-4 和 ASL-5 的安全措施定义为容易合规来解决这个问题——那将破坏 RSP 的初衷。」

RSP 一直都是一个活的文件：在 AI 变得更有能力之前就修订它，比等到被迫修订要好。

原文：Responsible Scaling Policy Version 3.0 | 来源：Anthropic 官方博客

Anthropic 发布责任扩展政策 v3.0：在现实约束下重构 AI 安全承诺

RSP 的核心逻辑

两年后的诚实评估

哪些成功了

哪些失败了

RSP v3 的三大核心更新

1. 分离「公司计划」与「行业建议」

2. 前沿安全路线图（Frontier Safety Roadmap）

3. 风险报告与外部审查

生物风险的「模糊地带」问题

更现实的立场

相关文章推荐

RSP 的核心逻辑#

两年后的诚实评估#

哪些成功了#

哪些失败了#

RSP v3 的三大核心更新#

1. 分离「公司计划」与「行业建议」#

2. 前沿安全路线图（Frontier Safety Roadmap）#

3. 风险报告与外部审查#

生物风险的「模糊地带」问题#

更现实的立场#

相关文章推荐

RSP 的核心逻辑

两年后的诚实评估

哪些成功了

哪些失败了

RSP v3 的三大核心更新

1. 分离「公司计划」与「行业建议」

2. 前沿安全路线图（Frontier Safety Roadmap）

3. 风险报告与外部审查

生物风险的「模糊地带」问题

更现实的立场