Anthropic重划“越狱风险”分级:大模型安全开始走向工程化治理
2026-07-03
大模型安全这件事,过去更多停留在原则层面:对齐、约束、拒绝危险请求。但Anthropic这次抛出的框架,明显在往工程化方向推进,把原本模糊的“风险”拆成了可以分级、打分、甚至外包验证的结构。
他们给网络安全相关使用场景划了一条边界线,从“完全禁止”到“无害用途”,中间再切出一段灰区。勒索软件开发、恶意程序生成、对关键基础设施的破坏,直接被归入不可触碰的范围,这一部分没有太多讨论空间,更像是行业共识的硬底线。
真正值得琢磨的是中间那层“双重用途”。渗透测试、安全研究这类场景,本身既可能用于防御,也可能被转化为攻击工具。Anthropic的处理方式偏保守:在更完善的控制机制落地之前,先整体拦截。
这其实透露出一个现实问题——模型能力越强,“用途不可分离性”就越明显。代码、漏洞分析、系统探测这些能力本身是中性的,但放进不同上下文里,风险性质会发生跃迁。
Cyber Jailbreak Severity(CJS)评级体系就是在试图把这种跃迁量化。CJS-0到CJS-4五个等级,再叠加四个评估维度,本质上是在给“越狱行为”做风险刻度,而不是简单的允许或拒绝判断。
从结构上看,这套体系更像是安全风控模型的迁移版本。传统互联网安全会评估攻击链路复杂度,现在则是在评估模型被诱导“越界”的难度和影响范围。两者逻辑相似,但对象变成了语言模型。
另一个容易被忽略的点是HackerOne项目的引入。让外部安全研究人员提交越狱案例,相当于把安全测试从内部实验室扩展到众包网络。这种方式在传统软件安全领域已经成熟,但放到大模型上,会带来更高频的攻击样本输入。
某种程度上,这也意味着Anthropic不再假设“训练阶段可以解决所有安全问题”,而是承认模型在部署后仍然会持续暴露在对抗环境中。
Claude Fable 5被作为案例嵌入其中,但重点并不在单一模型,而在防护机制如何模块化。网络安全防护不再是附加层,而是和模型能力同步设计的系统组件。
如果把这套框架放回行业背景,会发现一个趋势正在变得清晰:大模型安全正在从“原则治理”转向“分级治理”。不再讨论是否安全,而是讨论在什么等级下安全、在什么条件下可用,以及风险如何计量。
这一步看似是技术细化,实际更接近一种监管预备动作——当模型能力进入基础设施层之后,安全本身就需要变成可审计的结构,而不是经验判断。
