从80.8%到93.9%！Claude性能暴增却锁死，玻璃翼计划揭开残酷现实_建筑建材

从80.8%到93.9%！Claude性能暴增却锁死，玻璃翼计划揭开残酷现实

创始人

2026-04-12 01:39:22

0次

当AI模型的能力突破「人类顶尖」的临界点，第一个难题不是如何欢呼进步，而是如何按住「启动键」。4月9日，Anthropic发布的Claude Mythos预览版，用一组数据炸穿了行业认知：USAMO数学推理正确率97.6%（接近满分）、SWE-bench代码能力93.9%（暴涨13.1个百分点）、自主挖掘数千个零日漏洞（含27年未发现的OpenBSD漏洞）。但这个被官方称为「地球最强」的模型，却对公众紧闭大门——仅12家科技巨头和40个关键基础设施组织能接触。这不是技术保守，而是AI能力与安全底线碰撞的必然结果：当模型的进攻潜力远超当前防御体系，「暂时锁死」或许是给全行业留出的缓冲带。

一、性能「神话」：从「好用」到「危险」的质变

Claude Mythos的可怕之处，不在于「比上一代强」，而在于「突破了能力边界」。

在公开基准测试中，它的表现堪称「降维打击」：软件工程领域的SWE-bench Verified从Opus 4.6的80.8%跃升至93.9%，意味着复杂代码任务的解决能力接近人类顶级工程师；更惊人的是高难度数学推理——USAMO 2026竞赛题正确率从42.3%飙升至97.6%，要知道这一竞赛每年全球仅约500名顶尖高中生能获高分，而Mythos几乎做到了「全对」。

但真正让Anthropic紧张的，是它在网络安全领域的「攻击性天赋」。过去几周测试中，Mythos在Linux内核、Firefox浏览器、FFmpeg等核心组件中，自主发现了数千个高危零日漏洞。其中最典型的案例：OpenBSD系统中一个隐藏27年的远程崩溃漏洞，人类安全团队审了近30年没发现，Mythos却在几小时内定位并给出利用路径。对比之下，上一代Opus 4.6自主利用漏洞的成功率接近0%，而Mythos在Firefox漏洞测试中成功利用181次——这已经不是「工具」，而是「全自动漏洞武器」。

二、紧闭的大门：当「最强」变成「最险」

「不开放」的决定，藏着Anthropic的清醒认知：AI能力的「双刃剑」效应，在Mythos身上已经到了临界点。

去年底Google Threat Intelligence Group发现的PromptFlux攻击案例，至今让行业后怕：恶意脚本通过商业大模型API动态生成混淆代码，绕过传统检测发起攻击。而SQmagazine报告显示，全球AI驱动网络攻击已增长47%，超过2800万起。若Mythos开放，意味着黑帽黑客能瞬间获得「批量挖掘+利用漏洞」的AI助手——这不是「可能有风险」，而是「必然引发灾难」。

Anthropic官方博客直言：「Mythos的通用能力已能将网络战拉到新维度。」攻防战的残酷逻辑从未变过：攻击永远比防御主动，且利益驱动下，黑帽使用AI武器的动力远强于白帽。当模型的进攻能力远超当前防御体系，「暂时锁死」成了唯一理性选择——与其让所有人暴露在风险中，不如先让防御方拿到「盾牌」。

三、玻璃翼计划：给防御方的「先发优势」

「玻璃翼计划」的命名藏着深意：灵感来自美洲的玻璃翼蝶，透明翅膀看似脆弱，却能承载自身体重40倍的重量。Anthropic的逻辑很清晰：让防御方先掌握「AI防御武器」，在攻击方拿到同级别工具前，把漏洞全堵上。

目前，12家核心合作伙伴（AWS、苹果、微软、英伟达等）和40多个关键基础设施组织（Linux基金会等）已接入Mythos，Anthropic还砸出1亿美元额度，支持额外组织用它维护开源生态「地基」。这相当于给全球网络安全体系打了一剂「强心针」：Linux内核漏洞、浏览器安全缺陷、开源组件后门——这些曾让白帽团队头疼数年的问题，现在能被AI快速定位修复。

更关键的是，这不是「永久垄断」。官方明确表示：「最终目标是安全地大规模部署Mythos级模型。」现在的「不开放」，是为了未来的「更安全开放」——先让防御体系跟上AI能力，再谈普惠。

四、普通用户的「意外福利」：算力争夺下的体验守护

对普通Claude用户来说，Mythos不开放反而是「隐性福利」。

今年2月起，大量用户吐槽Claude Code「变笨变懒」：Reddit上开发者发帖称「文件读取次数从6-7次掉到2次」，AMD AI总监Stella Laurenzo公开批评其「dumber and lazier」。核心原因很现实：训练Mythos这样的超大模型需要海量算力，只能从现有服务「挤资源」——动态负载均衡、自适应思考深度降低，结果就是用户感知的「降智」。

现在Mythos不开放公众使用，意味着算力不再被新模型过度挤占。Anthropic可以把资源集中在现有服务优化上，避免Claude和Claude Code继续「性能跳水」。更长远看，Mythos帮大厂和开源项目修复的漏洞，最终会惠及所有用户——你的浏览器更安全、操作系统更稳定，背后可能就有这个「不开放模型」的功劳。

五、技术狂奔时代的安全命题：能力与风险的平衡

Claude Mythos的「锁仓」，撕开了AI发展的核心矛盾：当技术能力远超社会防御能力，「慢一步」反而比「快一步」更负责任。

过去几年，AI行业习惯了「唯参数论」「唯性能论」，却很少思考：当模型能自主发现27年漏洞、能秒破千个系统缺陷，我们的安全体系是否准备好了？就像核技术的发展需要国际公约约束，AI的「超能力」也需要「安全护栏」。Anthropic的选择，不是拒绝进步，而是给行业留出时间加固地基——让防御技术跟上进攻技术，让基础设施扛住AI冲击，让普通用户最终能安全地享受技术红利。

或许未来某一天，当我们打开Claude，看到的不仅是97.6%的满分能力，还有「安全」二字的沉甸甸分量。那时再回头看，这次「不开放」的决定，可能是AI行业走向成熟的关键一步。

Mythos 计划防御体系攻击性漏洞玻璃模型 Claude 性能的能力防御方

上一篇：原创马頔李纯装修吵到一半笑场？男方赶紧道歉，这是公费秀恩爱吧？

下一篇：旧房改暖气，暖气片报价为啥比新房还高？这些隐藏费用要注意

从80.8%到93.9%！Claude性能暴增却锁死，玻璃翼计划揭开残酷现实

相关内容

热门资讯