从80.8%到93.9%!Claude性能暴增却锁死,玻璃翼计划揭开残酷现实
创始人
2026-04-12 01:39:22
0

当AI模型的能力突破「人类顶尖」的临界点,第一个难题不是如何欢呼进步,而是如何按住「启动键」。4月9日,Anthropic发布的Claude Mythos预览版,用一组数据炸穿了行业认知:USAMO数学推理正确率97.6%(接近满分)、SWE-bench代码能力93.9%(暴涨13.1个百分点)、自主挖掘数千个零日漏洞(含27年未发现的OpenBSD漏洞)。但这个被官方称为「地球最强」的模型,却对公众紧闭大门——仅12家科技巨头和40个关键基础设施组织能接触。这不是技术保守,而是AI能力与安全底线碰撞的必然结果:当模型的进攻潜力远超当前防御体系,「暂时锁死」或许是给全行业留出的缓冲带。

一、性能「神话」:从「好用」到「危险」的质变

Claude Mythos的可怕之处,不在于「比上一代强」,而在于「突破了能力边界」。

在公开基准测试中,它的表现堪称「降维打击」:软件工程领域的SWE-bench Verified从Opus 4.6的80.8%跃升至93.9%,意味着复杂代码任务的解决能力接近人类顶级工程师;更惊人的是高难度数学推理——USAMO 2026竞赛题正确率从42.3%飙升至97.6%,要知道这一竞赛每年全球仅约500名顶尖高中生能获高分,而Mythos几乎做到了「全对」。

但真正让Anthropic紧张的,是它在网络安全领域的「攻击性天赋」。过去几周测试中,Mythos在Linux内核、Firefox浏览器、FFmpeg等核心组件中,自主发现了数千个高危零日漏洞。其中最典型的案例:OpenBSD系统中一个隐藏27年的远程崩溃漏洞,人类安全团队审了近30年没发现,Mythos却在几小时内定位并给出利用路径。对比之下,上一代Opus 4.6自主利用漏洞的成功率接近0%,而Mythos在Firefox漏洞测试中成功利用181次——这已经不是「工具」,而是「全自动漏洞武器」。

二、紧闭的大门:当「最强」变成「最险」

「不开放」的决定,藏着Anthropic的清醒认知:AI能力的「双刃剑」效应,在Mythos身上已经到了临界点。

去年底Google Threat Intelligence Group发现的PromptFlux攻击案例,至今让行业后怕:恶意脚本通过商业大模型API动态生成混淆代码,绕过传统检测发起攻击。而SQmagazine报告显示,全球AI驱动网络攻击已增长47%,超过2800万起。若Mythos开放,意味着黑帽黑客能瞬间获得「批量挖掘+利用漏洞」的AI助手——这不是「可能有风险」,而是「必然引发灾难」。

Anthropic官方博客直言:「Mythos的通用能力已能将网络战拉到新维度。」攻防战的残酷逻辑从未变过:攻击永远比防御主动,且利益驱动下,黑帽使用AI武器的动力远强于白帽。当模型的进攻能力远超当前防御体系,「暂时锁死」成了唯一理性选择——与其让所有人暴露在风险中,不如先让防御方拿到「盾牌」。

三、玻璃翼计划:给防御方的「先发优势」

「玻璃翼计划」的命名藏着深意:灵感来自美洲的玻璃翼蝶,透明翅膀看似脆弱,却能承载自身体重40倍的重量。Anthropic的逻辑很清晰:让防御方先掌握「AI防御武器」,在攻击方拿到同级别工具前,把漏洞全堵上。

目前,12家核心合作伙伴(AWS、苹果、微软、英伟达等)和40多个关键基础设施组织(Linux基金会等)已接入Mythos,Anthropic还砸出1亿美元额度,支持额外组织用它维护开源生态「地基」。这相当于给全球网络安全体系打了一剂「强心针」:Linux内核漏洞、浏览器安全缺陷、开源组件后门——这些曾让白帽团队头疼数年的问题,现在能被AI快速定位修复。

更关键的是,这不是「永久垄断」。官方明确表示:「最终目标是安全地大规模部署Mythos级模型。」现在的「不开放」,是为了未来的「更安全开放」——先让防御体系跟上AI能力,再谈普惠。

四、普通用户的「意外福利」:算力争夺下的体验守护

对普通Claude用户来说,Mythos不开放反而是「隐性福利」。

今年2月起,大量用户吐槽Claude Code「变笨变懒」:Reddit上开发者发帖称「文件读取次数从6-7次掉到2次」,AMD AI总监Stella Laurenzo公开批评其「dumber and lazier」。核心原因很现实:训练Mythos这样的超大模型需要海量算力,只能从现有服务「挤资源」——动态负载均衡、自适应思考深度降低,结果就是用户感知的「降智」。

现在Mythos不开放公众使用,意味着算力不再被新模型过度挤占。Anthropic可以把资源集中在现有服务优化上,避免Claude和Claude Code继续「性能跳水」。更长远看,Mythos帮大厂和开源项目修复的漏洞,最终会惠及所有用户——你的浏览器更安全、操作系统更稳定,背后可能就有这个「不开放模型」的功劳。

五、技术狂奔时代的安全命题:能力与风险的平衡

Claude Mythos的「锁仓」,撕开了AI发展的核心矛盾:当技术能力远超社会防御能力,「慢一步」反而比「快一步」更负责任。

过去几年,AI行业习惯了「唯参数论」「唯性能论」,却很少思考:当模型能自主发现27年漏洞、能秒破千个系统缺陷,我们的安全体系是否准备好了?就像核技术的发展需要国际公约约束,AI的「超能力」也需要「安全护栏」。Anthropic的选择,不是拒绝进步,而是给行业留出时间加固地基——让防御技术跟上进攻技术,让基础设施扛住AI冲击,让普通用户最终能安全地享受技术红利。

或许未来某一天,当我们打开Claude,看到的不仅是97.6%的满分能力,还有「安全」二字的沉甸甸分量。那时再回头看,这次「不开放」的决定,可能是AI行业走向成熟的关键一步。

相关内容

如何挑选抚顺运动木地板厂家...
需求场景引关注 在体育场馆、舞台等场所的建设中,运动木地板的选择至...
2026-04-12 03:07:07
如何找到靠谱的抚顺运动木地...
抚顺运动木地板的选择与厂家情况 在抚顺,无论是个人篮球爱好者打造自...
2026-04-12 03:05:47
阿维塔科技取得一种地板总成...
国家知识产权局信息显示,阿维塔科技(重庆)股份有限公司取得一项名为...
2026-04-12 03:05:09
探寻购买地板选择哪家好,解...
对于大部分家装、商用装修来说,地面铺装都是影响后续多年使用体验的核...
2026-04-12 03:04:01
总结有实力的别墅外瓷砖厂商...
在建筑陶瓷行业,别墅外瓷砖对性能、质感、工艺的要求远高于普通家装瓷...
2026-04-12 03:00:46
如何挑选合适的挂墙式浴室柜...
挂墙式浴室柜的市场需求 随着人们生活品质的提升,对浴室空间的美观与...
2026-04-12 02:59:37
广州天河黄埔橱柜底板更换_...
广州简和工程服务专注橱柜维修领域,深耕天河、黄埔两区,专业承接橱柜...
2026-04-12 02:55:17
沈阳玻璃电视柜定制厂家十大...
在定制家居行业迅速发展的今天,沈阳作为东北地区的重要工业基地,孕育...
2026-04-12 02:53:33

热门资讯

河南监理工程师考试答题技巧助你... 监理工程师是工程建设领域的关键技术岗位,其职业资格证书是从事监理工作的法定准入凭证,对于保障工程质量...
旧房改暖气,暖气片报价为啥比新... #黄金涨跌逻辑变了# 前几天跟邻居张姐聊天,她吐槽说自己彻底懵了—— 去年给儿子装新房,100平的房...
从80.8%到93.9%!Cl... 当AI模型的能力突破「人类顶尖」的临界点,第一个难题不是如何欢呼进步,而是如何按住「启动键」。4月9...
原创 马... 你见过吵架吵到一半笑出声的夫妻吗? 马頔和李纯在《妻子的浪漫旅行2026》里就这么干了。两人因为装修...
原创 明... 标题:明装暖气片前,你不能忽略的6个问题 亲爱的读者朋友们,大家好!今天我想和大家聊聊在安装明装暖...
以黎下周将直接谈判,特朗普要求... 据新华社报道,美国总统特朗普证实他8日与以色列总理内塔尼亚胡通电话,并要求以色列减少其在黎巴嫩境内的...
中国围棋协会相关负责人:中国队... 新华社北京4月10日电 中国围棋协会相关负责人10日接受新华社记者专访时表示,中国队参加第31届LG...
警方通报全红婵被网暴事件 据央视新闻消息,广东警方通报全红婵遭网暴事件,全文如下: 编辑 陈艳婷
吉林市船营区除甲醛公司哪家最好... 除甲醛检测治理公共卫生检测专业24小时上门服务,可以一键拨打下方创达电话,提前预约高效办理。 在...
长乐机场T2航站楼通过竣工验收 近日,福州长乐国际机场二期扩建项目T2航站楼顺利通过竣工验收。项目团队接下来将全速推进机电设备安装调...