当前位置:首页>资讯>OpenAI与Anthropic互测AI模型 聚焦安全性与失准问题

OpenAI与Anthropic互测AI模型 聚焦安全性与失准问题

2025-08-28

近日,人工智能领域的两大重要公司 OpenAI 和 Anthropic 相互对对方的模型进行了评估,旨在发现自身测试过程中可能遗漏的问题。两家公司分别在周三通过官方博客发布消息称,今年夏天,它们对对方公开可用的 AI 模型进行了安全性测试,以检验模型是否存在幻觉倾向以及所谓的“失准”(misalignment)问题。失准指的是模型未能按照开发者的预期行为运行,可能导致输出结果偏离预期目标或产生潜在风险。

此次评估是在 OpenAI 推出 GPT-5 之前,以及 Anthropic 于 8 月初发布 Opus 4.1 之前完成的。双方通过这种方式,不仅能够发现潜在漏洞,还能借鉴对方的安全测试方法,优化自身模型的可靠性和稳定性。Anthropic 的创始团队中包含多名前 OpenAI 员工,这使得两家公司在技术理念和开发流程上有一定交集,也为互相测试提供了可行性和深度。

AI 模型的“幻觉”问题一直是行业关注的焦点。所谓幻觉,是指模型生成的内容虽然语义上连贯,但在事实层面可能并不准确或完全虚构。失准问题则进一步扩展了这一风险,当模型的行为偏离开发者的目标时,可能在特定场景下产生意外或不符合道德规范的输出。通过互相测试,OpenAI 和 Anthropic 希望提前发现这些问题,从而降低 AI 模型在实际应用中带来的潜在危害。

安全性评估不仅仅是发现漏洞,还涉及如何优化模型的对齐性(alignment)和行为预测能力。通过跨公司的评测,双方可以了解不同模型在同样测试条件下的表现差异,识别可能被内部测试忽略的边界情况。这种开放性的评估方法有助于整个行业形成更完善的安全标准,并推动模型开发向更加可靠和可控的方向发展。

此外,这种互测行为也展示了 AI 公司在快速发展中的自我监督意识。随着 GPT-5 和 Opus 4.1 等大型模型的发布,技术能力不断提升,但伴随而来的风险也在增加。通过与其他领先机构合作进行模型安全测试,不仅可以提升自身技术水平,还能增强用户和社会对 AI 技术的信任感。

总体来看,OpenAI 与 Anthropic 互相评测模型,是当前 AI 安全领域的一种积极探索。通过聚焦幻觉和失准问题,双方不仅提高了自身模型的可靠性,也为行业制定更高的安全标准提供了参考。这一举措显示了在 AI 技术快速发展背景下,跨机构协作在模型安全和伦理对齐上的重要性。

2025-07-16

从草根到市值 6000 亿,Robinhood 娱乐至生 从草根到市值 6000 亿,Robinhood 娱乐至生

起于零佣金,兴于加密热。

2025-05-16

美国立法者将于5月19日对稳定币GENIUS法案进行最终表决 美国立法者将于5月19日对稳定币GENIUS法案进行最终表决

PANews5月16日消息,据Coingape报道,美国参议院多数党领袖JohnThune已正式提交《GENIUS法案》的终结辩论动议,定于5月19日进行表决。这项稳定币监管法案要求:资产超100亿美...

2024-12-23

淘金手册 | 潜在稳定币存款空投哪家强? 淘金手册 | 潜在稳定币存款空投哪家强?

而存款类项目 TGE 后的财富效应也较为显著,例如近期火热的 Usual 存款为用户带来了约 50% 存款量的收益,此前 Ethena 也为首期用户带来了 70% 的收益率,且几个项目均是在短短几个月的存款周期内便为用户带来了可观的回报,由此,很多存款项目正在吸引越来越多的链上流动性入局押注。

2025-01-24

BNB Chain举办新年红包嘉年华,分发价值逾30万美元的代币奖励迎接新年 BNB Chain举办新年红包嘉年华,分发价值逾30万美元的代币奖励迎接新年

PANews1月23日消息,BNBChain宣布将开展红包嘉年华活动,派发超30万美元的奖励红包,希望这些象征着好运与繁荣的红包可以为社区用户带去美好的祝福,享受节日的狂欢。此次红包嘉年华为期三周,从...

2025-01-22

PumpFun向Kraken转移约2800万美元的SOL PumpFun向Kraken转移约2800万美元的SOL

PANews1月21日消息,据OnchainLens监测,PumpFun刚向Kraken转移116,054.56枚SOL,价值约2800万美元。2025年以来,其累计已向Kraken转移692,877...

2025-07-16

“内幕巨鲸”近半小时平仓319.68枚BTC实现盈利20.5万美元 “内幕巨鲸”近半小时平仓319.68枚BTC实现盈利20.5万美元

PANews7月15日消息,据链上分析师@ai_9684xtpa监测,7月11日至7月14日做空亏损957.4万美元的“内幕巨鲸”此次谨慎采取止盈操作。过去半小时内,该交易员平仓319.68枚BTC实...