Anthropic 发布了一份罕见的技术披露,详细说明了他们如何检测并应对「蒸馏攻击」——一种通过大量 API 调用来窃取前沿模型能力、训练自家模型的行为。
什么是蒸馏攻击?
模型蒸馏(Model Distillation) 是一种合法的机器学习技术:用一个大模型(教师)的输出来训练一个更小的模型(学生),让小模型逼近大模型的能力。
蒸馏攻击 则是这一技术的滥用版本:攻击者伪装成合法用户或企业,大量调用 Claude API,系统性地收集输出用于训练自己的模型,同时规避 Anthropic 的使用条款。
这类攻击的动机很明显:绕过数十亿美元的研发投入,通过窃取前沿模型的「知识」来训练竞争对手模型。
攻击规模与手段
Anthropic 观察到的蒸馏攻击呈现出几个特征:
- 规模化:不是零星的 API 滥用,而是跨大量账号的协调行动
- 针对推理链:特别针对 Claude 的链式思考(chain-of-thought)输出,这是构建推理训练数据的宝贵素材
- 账号欺诈:最常被滥用的入口是教育账号、安全研究项目和创业组织——这些渠道有更宽松的访问政策
- 跨平台:需要多个 AI 公司、云服务商协同才能形成完整的攻击面
Anthropic 的防御体系
Anthropic 披露了他们正在建立的多层防御:
1. 检测(Detection)
分类器 + 行为指纹识别:建立专门的分类器和行为指纹系统,用于识别 API 流量中的蒸馏攻击模式——包括检测用于构建推理训练数据的链式思考触发模式。
大规模协调活动检测:建立跨大量账号识别协调行动的检测工具。
2. 情报共享(Intelligence Sharing)
与其他 AI 实验室、云服务商和相关部门共享技术指标,形成更全面的蒸馏态势感知图景。
3. 访问控制(Access Controls)
加强验证:针对最常被利用的入口——教育账号、安全研究项目、创业组织渠道——强化核实流程。
4. 反制措施(Countermeasures)
开发产品级、API 级和模型级的安全措施,设计为降低模型输出被用于非法蒸馏的效果,同时不影响合法用户的体验。
为什么公开披露?
Anthropic 选择公开这份报告的原因直接:没有任何一家公司能单独解决这个问题。
这类大规模蒸馏攻击需要 AI 行业、云服务商和政策制定者的协调应对。Anthropic 通过发布这份报告,将证据公开给所有相关方,推动行业联合应对。
对 AI 行业的影响
这份披露揭示了前沿 AI 开发中一个鲜少被公开讨论的现实:
研发投入正在面临系统性盗窃风险。训练一个顶级模型需要数十亿美元的算力和数据投入,但蒸馏攻击提供了一条捷径——用远低于原始成本的代价获得接近的能力。
安全与访问之间的张力:加强访问控制不可避免地会增加合法研究者的摩擦。Anthropic 必须在防止滥用和保持对真实研究者的开放之间寻找平衡。
行业协调的必要性:蒸馏攻击不只针对单一公司,而是利用整个 AI 生态的访问渠道。这要求前所未有的行业协调,包括共享威胁情报和对齐访问政策。
技术背景:为什么推理链特别有价值?
链式思考(CoT)数据对蒸馏攻击者尤其有价值,原因在于:
- 它展示了模型「如何思考」,而不仅仅是最终答案
- 包含推理步骤的训练数据能更有效地蒸馏出推理能力
- 这类数据在公开互联网上极为稀缺,生成成本高
Claude 的扩展思考功能产出的推理链,正是攻击者重点收集的目标。
原文:Detecting and preventing distillation attacks | 来源:Anthropic 官方博客