限制级发布!最新AI模型Claude Mythos“过于危险”

时间:2026-04-09来源:

Anthropic表示,由于担心其最新AI模型Mythos太擅长发现主流操作系统和网络浏览器中的“高危漏洞”,现已暂停更广泛地发布。这次最值得关注的,不是“模型又变强了”,而是Anthropic首次如此清楚地承认,前沿大模型的能力,已经开始逼近现实世界中的高风险任务边界。

Anthropic称:“Claude Mythos预览版的功能大幅提升,因此我们决定不将其公开发布。相反,我们将其用作一项防御性网络安全计划的一部分,该计划的合作伙伴数量有限。”

640.png

Anthropic在系统卡中明确写道,Mythos相比Claude Opus 4.6在多项评测上出现了明显跃升,而正是其突出的网络安全能力,促使改变了发布方式。 

根据官方介绍,Mythos在软件工程、推理、计算机使用、知识工作和研究辅助等方向均明显强于此前模型;在网络安全方面,它已经展现出极强的漏洞发现和利用能力。

Anthropic直言,AI模型如今已经达到了这样一个阶段,在发现和利用软件漏洞上,除了最顶尖的那批专家之外,模型可以超过绝大多数人类。在测试中,Mythos Preview能在用户指示下识别并利用所有主流操作系统和所有主流网页浏览器中的零日漏洞。

从Anthropic披露的案例看,Mythos最令人不安的地方,不只是“会找漏洞”,而是已经开始呈现出“找漏洞—写利用链—完成攻击动作”的完整链条能力。

最典型的案例:Mythos Preview发现OpenBSD对TCP SACK机制实现里的问题。Anthropic表示,这是它们在OpenBSD上通过脚手架运行大约1000次后找到的最严重漏洞之一,相关运行总成本低于2万美元,而发现这一具体漏洞的那一次运行,事后回看成本不到50美元。

按照官方的说法,这类成本结构意味着,AI已经开始把过去昂贵、稀缺、依赖资深研究员的漏洞挖掘工作,推向更可规模化的阶段。官方博文明确写道,Anthropic内部一些没有接受过正规安全培训的工程师,曾让Mythos Preview夜间去查找远程代码执行漏洞,第二天醒来后,已经得到一份完整、可工作的 exploit。

从外部评测结果看,Anthropic对Mythos的判断也建立在更接近真实攻击场景的测试上:系统卡称Mythos是第一个能端到端打通某个私有cyber range的模型,它还完成了一个专家估计要花10小时以上的企业网络攻击模拟。这表明Mythos已经具备对小规模、弱防御企业网络执行自主端到端网络攻击的能力,当然这些测试环境仍缺少现实世界中常见的防御工具和监控体系。 

也正因为这些案例过于具体,Anthropic才选择不把Mythos直接开放给公众,而是通过Project Glasswing先让少数合作方在防御场景中使用。目标是利用Mythos帮助关键软件和基础设施发现、修复高危漏洞,同时为AI时代的网络防御建立新的协作机制。

640-4.png

Mythos已经发现了数千个高严重性漏洞。不过,Anthropic并没有把Mythos描述成一个已经全面越过灾难红线的系统。按照系统卡结论,尽管Mythos的能力显著增强,仍判断其整体灾难性风险目前维持在较低水平。也就是说,Anthropic的判断不是“这款模型绝对不能存在”,而是“这款模型现在不适合被广泛开放”。

关键词: AI 模型 Claude Mythos Anthropic

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版