OpenAI与Anthropic互测AI模型 聚焦安全性与失准问题
2025-08-28
近日,人工智能领域的两大重要公司 OpenAI 和 Anthropic 相互对对方的模型进行了评估,旨在发现自身测试过程中可能遗漏的问题。两家公司分别在周三通过官方博客发布消息称,今年夏天,它们对对方公开可用的 AI 模型进行了安全性测试,以检验模型是否存在幻觉倾向以及所谓的“失准”(misalignment)问题。失准指的是模型未能按照开发者的预期行为运行,可能导致输出结果偏离预期目标或产生潜在风险。
此次评估是在 OpenAI 推出 GPT-5 之前,以及 Anthropic 于 8 月初发布 Opus 4.1 之前完成的。双方通过这种方式,不仅能够发现潜在漏洞,还能借鉴对方的安全测试方法,优化自身模型的可靠性和稳定性。Anthropic 的创始团队中包含多名前 OpenAI 员工,这使得两家公司在技术理念和开发流程上有一定交集,也为互相测试提供了可行性和深度。
AI 模型的“幻觉”问题一直是行业关注的焦点。所谓幻觉,是指模型生成的内容虽然语义上连贯,但在事实层面可能并不准确或完全虚构。失准问题则进一步扩展了这一风险,当模型的行为偏离开发者的目标时,可能在特定场景下产生意外或不符合道德规范的输出。通过互相测试,OpenAI 和 Anthropic 希望提前发现这些问题,从而降低 AI 模型在实际应用中带来的潜在危害。
安全性评估不仅仅是发现漏洞,还涉及如何优化模型的对齐性(alignment)和行为预测能力。通过跨公司的评测,双方可以了解不同模型在同样测试条件下的表现差异,识别可能被内部测试忽略的边界情况。这种开放性的评估方法有助于整个行业形成更完善的安全标准,并推动模型开发向更加可靠和可控的方向发展。
此外,这种互测行为也展示了 AI 公司在快速发展中的自我监督意识。随着 GPT-5 和 Opus 4.1 等大型模型的发布,技术能力不断提升,但伴随而来的风险也在增加。通过与其他领先机构合作进行模型安全测试,不仅可以提升自身技术水平,还能增强用户和社会对 AI 技术的信任感。
总体来看,OpenAI 与 Anthropic 互相评测模型,是当前 AI 安全领域的一种积极探索。通过聚焦幻觉和失准问题,双方不仅提高了自身模型的可靠性,也为行业制定更高的安全标准提供了参考。这一举措显示了在 AI 技术快速发展背景下,跨机构协作在模型安全和伦理对齐上的重要性。
