2026 年 2 月,Anthropic 发布了责任扩展政策(RSP)的第三个版本。这不是一次例行更新——而是对过去两年经验的深度反思,以及对现实困境的坦诚承认。
RSP 是什么?
责任扩展政策(Responsible Scaling Policy)是 Anthropic 2023 年 9 月发布的自愿性框架:当 AI 模型超过特定能力阈值时,必须实施相应级别的安全防护措施。
核心机制是「如果-那么」(if-then)承诺:
- 如果模型达到某个危险能力水平(如生物武器相关知识)
- 那么必须实施对应等级(ASL)的安全防护
ASL 分级:ASL-2(当前多数模型)→ ASL-3(已激活,2025 年 5 月)→ ASL-4/5(尚未达到)
两年后的诚实评估
AnthropicAnthropicAnthropicAnthropicAnthropicAnthropicAnthropic 在 v3.0 中少见地公开了哪些方面达到了预期,哪些没有:
✅ 成功的部分
内部推动力:RSP 确实迫使公司把安全防护视为发布新模型的前提条件,推动了输入/输出分类器等技术的快速发展。
ASL-3 如期实施:2025 年 5 月成功激活 ASL-3 防护,主要针对化学和生物武器相关威胁,证明框架实际可行。
行业带动效应:发布几个月内,OpenAI 和 Google DeepMind 都推出了类似框架。多国政府(加州 SB 53、纽约 RAISE Act、欧盟 AI Act)也开始要求前沿 AI 开发者建立类似的风险评估框架。
❌ 未达预期的部分
能力阈值界定模糊:生物风险是典型案例——当前模型已有足够生物知识可以通过大多数测试,但这不足以判断风险究竟是高还是低。「能力接近阈值但不确定是否越过」的模糊地带,大大削弱了推动多边行动的论据。
政府行动迟缓:AI 安全监管推进缓慢,政策环境更倾向于 AI 竞争力和经济增长,安全导向的讨论在联邦层面尚未获得实质进展。
高级 ASL 的实现挑战:RAND 报告指出,其「SL5」安全标准(针对最强网络攻击能力的机构)「目前不可能」实现,「可能需要国家安全机构协助」。Anthropic 承认,高 ASL 级别的防护措施很可能无法单方面完成。
v3.0 的三大新机制
1. 分离:公司行动 vs 行业建议
v3.0 明确区分两类承诺:
- 公司单边行动:无论其他公司怎么做,Anthropic 自己会做到的
- 行业建议框架:如果整个行业都实施,能够充分管理 AI 风险的完整能力-措施映射
这是务实的调整——承认有些事情单靠一家公司做不到,需要多边合作。
2. 前沿安全路线图(Frontier Safety Roadmap)
新增要求:必须制定并发布具体的安全路线图,覆盖安全(Security)、对齐(Alignment)、防护(Safeguards)、政策(Policy)四个领域。
路线图目标示例:
- 启动「登月 R&D」项目,研究达到前所未有信息安全水平的创新方案
- 开发超越数百名 bug bounty 参与者集体贡献的自动化红队测试方法
- 建立所有关键 AI 开发活动的综合集中记录,用 AI 分析安全威胁
- 发布「监管阶梯」政策路线图,提供随风险升级的具体政策建议
这些是公开承诺的目标,会定期公开评分,而非硬性要求。
3. 风险报告(Risk Reports)+ 外部审查
每 3-6 个月发布一次风险报告,包含:
- 模型当前能力评估
- 具体威胁模型(哪些方式可能造成危险)
- 当前防护措施与这些威胁的对应关系
- 总体风险水平评估
当达到特定条件时,外部独立专家将进行审查——审查者需深熟 AI 安全研究、无重大利益冲突,并有权访问完整(或最小程度删减)的报告内容。
深层意义
RSP v3.0 的核心转变是:从「我们会独立解决所有问题」到「我们坦诚说明能做什么、什么需要整个行业合作」。
这种透明度本身就是一种策略——通过公开描述当前安全措施与理想状态之间的差距,推动公众意识和政策变化。
原文:Responsible Scaling Policy v3.0 | 来源:Anthropic 官方博客 | 2026-02