Anthropic重划“越狱风险”分级：大模型安全开始走向工程化治理

2026-07-03

大模型安全这件事，过去更多停留在原则层面：对齐、约束、拒绝危险请求。但Anthropic这次抛出的框架，明显在往工程化方向推进，把原本模糊的“风险”拆成了可以分级、打分、甚至外包验证的结构。

他们给网络安全相关使用场景划了一条边界线，从“完全禁止”到“无害用途”，中间再切出一段灰区。勒索软件开发、恶意程序生成、对关键基础设施的破坏，直接被归入不可触碰的范围，这一部分没有太多讨论空间，更像是行业共识的硬底线。

真正值得琢磨的是中间那层“双重用途”。渗透测试、安全研究这类场景，本身既可能用于防御，也可能被转化为攻击工具。Anthropic的处理方式偏保守：在更完善的控制机制落地之前，先整体拦截。

这其实透露出一个现实问题——模型能力越强，“用途不可分离性”就越明显。代码、漏洞分析、系统探测这些能力本身是中性的，但放进不同上下文里，风险性质会发生跃迁。

Cyber Jailbreak Severity（CJS）评级体系就是在试图把这种跃迁量化。CJS-0到CJS-4五个等级，再叠加四个评估维度，本质上是在给“越狱行为”做风险刻度，而不是简单的允许或拒绝判断。

从结构上看，这套体系更像是安全风控模型的迁移版本。传统互联网安全会评估攻击链路复杂度，现在则是在评估模型被诱导“越界”的难度和影响范围。两者逻辑相似，但对象变成了语言模型。

另一个容易被忽略的点是HackerOne项目的引入。让外部安全研究人员提交越狱案例，相当于把安全测试从内部实验室扩展到众包网络。这种方式在传统软件安全领域已经成熟，但放到大模型上，会带来更高频的攻击样本输入。

某种程度上，这也意味着Anthropic不再假设“训练阶段可以解决所有安全问题”，而是承认模型在部署后仍然会持续暴露在对抗环境中。

Claude Fable 5被作为案例嵌入其中，但重点并不在单一模型，而在防护机制如何模块化。网络安全防护不再是附加层，而是和模型能力同步设计的系统组件。

如果把这套框架放回行业背景，会发现一个趋势正在变得清晰：大模型安全正在从“原则治理”转向“分级治理”。不再讨论是否安全，而是讨论在什么等级下安全、在什么条件下可用，以及风险如何计量。

这一步看似是技术细化，实际更接近一种监管预备动作——当模型能力进入基础设施层之后，安全本身就需要变成可审计的结构，而不是经验判断。

2025-05-16: 美国立法者将于5月19日对稳定币GENIUS法案进行最终表决

PANews5月16日消息，据Coingape报道，美国参议院多数党领袖JohnThune已正式提交《GENIUS法案》的终结辩论动议，定于5月19日进行表决。这项稳定币监管法案要求：资产超100亿美...

2024-12-23: 淘金手册 | 潜在稳定币存款空投哪家强？

而存款类项目 TGE 后的财富效应也较为显著，例如近期火热的 Usual 存款为用户带来了约 50% 存款量的收益，此前 Ethena 也为首期用户带来了 70% 的收益率，且几个项目均是在短短几个月的存款周期内便为用户带来了可观的回报，由此，很多存款项目正在吸引越来越多的链上流动性入局押注。

2025-01-24: BNB Chain举办新年红包嘉年华，分发价值逾30万美元的代币奖励迎接新年

PANews1月23日消息，BNBChain宣布将开展红包嘉年华活动，派发超30万美元的奖励红包，希望这些象征着好运与繁荣的红包可以为社区用户带去美好的祝福，享受节日的狂欢。此次红包嘉年华为期三周，从...

2025-01-22: PumpFun向Kraken转移约2800万美元的SOL

PANews1月21日消息，据OnchainLens监测，PumpFun刚向Kraken转移116,054.56枚SOL，价值约2800万美元。2025年以来，其累计已向Kraken转移692,877...

2025-07-16: “内幕巨鲸”近半小时平仓319.68枚BTC实现盈利20.5万美元

PANews7月15日消息，据链上分析师@ai_9684xtpa监测，7月11日至7月14日做空亏损957.4万美元的“内幕巨鲸”此次谨慎采取止盈操作。过去半小时内，该交易员平仓319.68枚BTC实...

欧易交易所