深度

Anthropic 发布责任扩展政策 v3.0:在现实约束下重构 AI 安全承诺

Anthropic 发布责任扩展政策 v3.0,坦诚评估过去两年 RSP 的成败:带动行业跟进成功,但「阈值创造共识」和政府行动均未如预期。三大核心更新:分离公司计划与行业建议、发布前沿安全路线图、引入定期风险报告与外部审查机制。

2026/2/284分钟 阅读ClaudeEagle

Anthropic 发布了责任扩展政策(RSP)第三版,这是他们用于管控 AI 系统灾难性风险的自愿性框架。这次更新是对过去两年经验的深刻反思——坦诚承认哪些部分成功了,哪些失败了。

RSP 的核心逻辑

RSP 建立在**条件承诺(If-Then Commitments)**原则上:如果某个模型超过特定能力阈值(例如可以协助创建生物武器),那么就必须引入更严格的安全措施(例如更强的内容过滤)。

每套安全措施对应一个「AI 安全级别」(ASL):ASL-2 对应一组要求,ASL-3 对应更严格的要求,依此类推。

两年后的诚实评估

哪些成功了

  • RSP 确实推动了更强的安全措施:为了满足 ASL-3 标准(主要关于生物/化学武器风险),开发了越来越精准的内容分类器
  • ASL-3 标准确实可行:2025 年 5 月激活 ASL-3 保护措施并持续改进
  • 带动了行业跟进:OpenAI 和 Google DeepMind 在数月内推出了类似框架;加州 SB 53、纽约 RAISE Act、EU AI Act 均参考了这些原则

哪些失败了

  • 「能力阈值创造共识」没有实现:能力临界值比预想的模糊得多。「接近阈值」和「确实超过阈值」之间存在大量灰色地带
  • 政府行动远比预期缓慢:政策环境转向优先考虑 AI 竞争力和经济增长,安全导向的讨论在联邦层面几乎没有实质进展
  • 更高级别的安全措施无法单独实现:RAND 报告指出,其「SL5」安全标准(应对最顶级网络攻击者)「目前不可能」实现,需要国家安全社区协助

RSP v3 的三大核心更新

1. 分离「公司计划」与「行业建议」

RSP v3 明确区分两类承诺:

  • Anthropic 自己会做什么(无论其他人做什么)
  • 整个行业应该做什么(Anthropic 的建议)

这解决了一个结构性问题:之前的 RSP 把「公司能力范围内的承诺」和「需要行业协作才能实现的要求」混为一谈。

2. 前沿安全路线图(Frontier Safety Roadmap)

新版 RSP 要求制定并公开前沿安全路线图,描述在安全、对齐、保障措施和政策四个领域的具体计划。

这些目标是「非约束性但公开声明」的——Anthropic 会公开评估自己的进展。当前路线图中的一些目标:

  • 「月球计划」R&D:探索实现前所未有信息安全级别的雄心勃勃方案
  • 开发超越数百名 Bug Bounty 参与者集体贡献的自动化红队方法
  • 实施系统性措施确保 Claude 按照其宪法行事
  • 建立所有关键 AI 开发活动的综合集中记录,用 AI 分析这些记录中的潜在问题

3. 风险报告与外部审查

**风险报告(Risk Reports)**每 3-6 个月发布一次,内容超越模型能力描述,还要解释:

  • 能力与威胁模型的关系
  • 主动风险缓解措施
  • 整体风险水平评估

在某些情况下,风险报告还需要外部专家审查:独立审查者拥有最小程度编辑的完整报告访问权,并进行公开评审。

初始风险报告已发布:feb-2026-risk-report

生物风险的「模糊地带」问题

Anthropic 以生物风险为例,展示了能力阈值为何如此难以界定:

「我们的模型现在表现出足够的生物学知识,可以通过我们能快速运行的大多数测试,所以我们不能再强有力地论证来自某个模型的风险很低。但这些测试本身也不足以强有力地论证风险很高。」

为获取更多证据,Anthropic 支持了一项大规模湿实验室试验,但结果仍然模糊——因为研究周期太长,等到研究完成,更强大的模型已经出现了。

更现实的立场

RSP v3 的核心精神是现实主义:承认某些安全目标在当前环境下 Anthropic 无法单独实现,同时坚持力所能及的部分,并公开这两者之间的差距。

「如果我们试图通过将 ASL-4 和 ASL-5 的安全措施定义为容易合规来解决这个问题——那将破坏 RSP 的初衷。」

RSP 一直都是一个活的文件:在 AI 变得更有能力之前就修订它,比等到被迫修订要好。


原文:Responsible Scaling Policy Version 3.0 | 来源:Anthropic 官方博客

相关文章推荐

深度Anthropic 责任扩展政策 v3.0:ASL 评级体系、风险报告与行业建议Anthropic 责任扩展政策 v3.0 深度解读:ASL 评级体系(当前 Claude 为 ASL-2)、三大核心更新(透明安全承诺、风险报告机制、区分个人承诺与行业建议)、生化武器和网络安全评估方法及 v3.0 对 AI 行业的意义。2026/3/1深度Anthropic 责任扩展政策 v3.0 深度解读:两年反思、三大新机制与行业合作路径Anthropic RSP v3.0 深度解读:两年实施经验的诚实评估(成功:ASL-3 实施/行业带动;失败:能力阈值模糊/政府行动迟缓)、三大新机制(公司行动 vs 行业建议分离/前沿安全路线图/每季度风险报告+外部审查),以及从单边承诺转向透明化多边合作的深层战略转变。2026/3/3深度Anthropic 揭露 AI 蒸馏攻击:如何检测和阻止大规模窃取模型能力的行为Anthropic 披露 AI 蒸馏攻击的检测与防御体系:攻击者通过大量 API 调用系统性窃取 Claude 输出用于训练竞争模型,尤其针对链式思考数据。Anthropic 建立了分类器指纹识别、行业情报共享、访问控制强化、模型级反制措施四层防御,并公开披露以推动行业协调应对。2026/3/1深度Anthropic Batch API 完全指南:大批量处理 Claude 请求节省 50% 成本Anthropic Messages Batches API 完整教程:批量 API 是什么(异步批处理/24小时内完成)、与普通 API 的成本对比(50% 折扣)、Python/Node.js 创建批次请求、轮询批次状态、下载并处理结果、错误处理(部分失败的处理方式)、适合与不适合批量处理的场景、批次取消与数据保留策略,以及批量处理 1000 篇文章摘要的完整实战示例。2026/3/20深度Claude API 速率限制完全指南:限额说明、错误处理与优化策略Anthropic Claude API 速率限制完整说明:请求频率限制(RPM)、Token 用量限制(TPM/TPD)、不同使用层级的限额对比(免费层/Build/Scale/Enterprise)、429 错误的标准处理方式(指数退避重试)、提升限额的申请方法、Prompt Caching 和 Batch API 绕过限制的技巧,以及高并发场景的队列设计方案。2026/3/18深度Claude Extended Thinking 深度思考模式:复杂推理场景实战指南Claude Extended Thinking(扩展思考)完整指南:工作原理、支持模型、API 用法、thinking budget 配置、流式输出处理、适用场景(数学/架构/安全审计)、成本控制与常见误区。2026/3/15