Anthropic RSP v3.0 解读：ASL 评级、风险报告机制与 AI 安全行业建议

Anthropic 责任扩展政策 v3.0：ASL 评级体系、风险报告与行业建议

Anthropic 责任扩展政策 v3.0 深度解读：ASL 评级体系（当前 Claude 为 ASL-2）、三大核心更新（透明安全承诺、风险报告机制、区分个人承诺与行业建议）、生化武器和网络安全评估方法及 v3.0 对 AI 行业的意义。

2026/3/13分钟阅读ClaudeEagle

Anthropic 发布了第三版责任扩展政策（RSP v3.0），这是 Anthropic 应对前沿 AI 风险的核心承诺文件，也是 AI 安全领域最重要的行业参考文件之一。

什么是责任扩展政策？

Anthropic 的 RSP 是一份承诺文件：在 AI 模型达到某些能力里程碑时，Anthropic 承诺采取相应安全措施。核心思想是：如果我们无法安全部署某个能力水平的模型，就不应该训练它。

v3.0 是这一活文件的第三次修订，增加了透明度、更新了评估方法，并首次将 Anthropic 的个人承诺与对整个行业的建议分开。

ASL 评级体系

级别	描述
ASL-1	能力不超过公开可用模型，风险最低
ASL-2	在某些危险领域有初步能力，但不会显著提升现有威胁
ASL-3	能显著帮助非国家行为者造成大规模破坏性事件
ASL-4+	更高级别，目前尚未达到

当前 Claude 3.5 Sonnet 和 Claude 3.5 Haiku 评定为 ASL-2。

v3.0 三大核心更新

1. 更透明的安全承诺

关键承诺：

升级触发：模型在 ASL-3 相关能力上表现出「实质性进展」，即使尚未完全满足阈值，也触发加强安全措施
训练暂停：如果无法在 6 个月内部署满足 ASL-4 要求的安全措施，将暂停更大规模模型训练
评估时间表：每次前沿训练运行前和部署前都必须进行安全评估

2. 新增「风险报告」机制

v3.0 最重要的新增机制是定期发布公开风险报告：

当前模型的 ASL 评定结果和推理
生化武器、网络安全等危险能力的评估数据
当前安全措施与更理想措施之间的差距
对 AI 安全研究现状的客观评估

首份风险报告已随 v3.0 一起发布（2026 年 2 月）。

3. 区分个人承诺与行业建议

Anthropic 自身承诺：Anthropic 能切实实施和核实的具体措施。

对行业的建议：

建立独立的第三方 AI 安全评估机构
开发跨组织安全标准和协议
建立行业级事故响应机制

生化武器和网络安全评估

生化武器

Anthropic 聘请独立生物安全专家，设计了模拟恶意行为者工作流的测试，比较 Claude 与其他信息来源（搜索引擎、教科书）的帮助程度差异。

当前结论：Claude 3.5 系列不满足 ASL-3 阈值，但某些子任务表现令人担忧，持续监控中。

网络安全

评估 Claude 是否能显著降低高危攻击门槛，包括零日漏洞开发、关键基础设施攻击辅助等。当前评估未满足 ASL-3 阈值。

自主性风险

v3.0 新增了 AI 自主性风险评估：即 AI 在没有人类监督的情况下自主行动、积累资源或影响力的能力。当前 Claude 3.5 不满足 ASL-3 自主性阈值。

对 AI 行业的意义

透明化先例：公开风险报告让外界能评估安全措施是否与声明一致
行业协调基础：明确区分个人承诺和行业建议，为跨公司安全标准提供框架
可验证的承诺：训练暂停等具体承诺，降低「安全洗白」的空间

原文：Anthropic Responsible Scaling Policy v3.0 | 来源：Anthropic 官方博客

什么是责任扩展政策？#

ASL 评级体系#

v3.0 三大核心更新#

1. 更透明的安全承诺#

2. 新增「风险报告」机制#

3. 区分个人承诺与行业建议#

生化武器和网络安全评估#

生化武器#

网络安全#

自主性风险#

对 AI 行业的意义#

相关文章推荐