从80.8%到93.9%!Claude性能暴增却锁死,玻璃翼计划揭开残酷现实
创始人
2026-04-12 01:39:22
0

当AI模型的能力突破「人类顶尖」的临界点,第一个难题不是如何欢呼进步,而是如何按住「启动键」。4月9日,Anthropic发布的Claude Mythos预览版,用一组数据炸穿了行业认知:USAMO数学推理正确率97.6%(接近满分)、SWE-bench代码能力93.9%(暴涨13.1个百分点)、自主挖掘数千个零日漏洞(含27年未发现的OpenBSD漏洞)。但这个被官方称为「地球最强」的模型,却对公众紧闭大门——仅12家科技巨头和40个关键基础设施组织能接触。这不是技术保守,而是AI能力与安全底线碰撞的必然结果:当模型的进攻潜力远超当前防御体系,「暂时锁死」或许是给全行业留出的缓冲带。

一、性能「神话」:从「好用」到「危险」的质变

Claude Mythos的可怕之处,不在于「比上一代强」,而在于「突破了能力边界」。

在公开基准测试中,它的表现堪称「降维打击」:软件工程领域的SWE-bench Verified从Opus 4.6的80.8%跃升至93.9%,意味着复杂代码任务的解决能力接近人类顶级工程师;更惊人的是高难度数学推理——USAMO 2026竞赛题正确率从42.3%飙升至97.6%,要知道这一竞赛每年全球仅约500名顶尖高中生能获高分,而Mythos几乎做到了「全对」。

但真正让Anthropic紧张的,是它在网络安全领域的「攻击性天赋」。过去几周测试中,Mythos在Linux内核、Firefox浏览器、FFmpeg等核心组件中,自主发现了数千个高危零日漏洞。其中最典型的案例:OpenBSD系统中一个隐藏27年的远程崩溃漏洞,人类安全团队审了近30年没发现,Mythos却在几小时内定位并给出利用路径。对比之下,上一代Opus 4.6自主利用漏洞的成功率接近0%,而Mythos在Firefox漏洞测试中成功利用181次——这已经不是「工具」,而是「全自动漏洞武器」。

二、紧闭的大门:当「最强」变成「最险」

「不开放」的决定,藏着Anthropic的清醒认知:AI能力的「双刃剑」效应,在Mythos身上已经到了临界点。

去年底Google Threat Intelligence Group发现的PromptFlux攻击案例,至今让行业后怕:恶意脚本通过商业大模型API动态生成混淆代码,绕过传统检测发起攻击。而SQmagazine报告显示,全球AI驱动网络攻击已增长47%,超过2800万起。若Mythos开放,意味着黑帽黑客能瞬间获得「批量挖掘+利用漏洞」的AI助手——这不是「可能有风险」,而是「必然引发灾难」。

Anthropic官方博客直言:「Mythos的通用能力已能将网络战拉到新维度。」攻防战的残酷逻辑从未变过:攻击永远比防御主动,且利益驱动下,黑帽使用AI武器的动力远强于白帽。当模型的进攻能力远超当前防御体系,「暂时锁死」成了唯一理性选择——与其让所有人暴露在风险中,不如先让防御方拿到「盾牌」。

三、玻璃翼计划:给防御方的「先发优势」

「玻璃翼计划」的命名藏着深意:灵感来自美洲的玻璃翼蝶,透明翅膀看似脆弱,却能承载自身体重40倍的重量。Anthropic的逻辑很清晰:让防御方先掌握「AI防御武器」,在攻击方拿到同级别工具前,把漏洞全堵上。

目前,12家核心合作伙伴(AWS、苹果、微软、英伟达等)和40多个关键基础设施组织(Linux基金会等)已接入Mythos,Anthropic还砸出1亿美元额度,支持额外组织用它维护开源生态「地基」。这相当于给全球网络安全体系打了一剂「强心针」:Linux内核漏洞、浏览器安全缺陷、开源组件后门——这些曾让白帽团队头疼数年的问题,现在能被AI快速定位修复。

更关键的是,这不是「永久垄断」。官方明确表示:「最终目标是安全地大规模部署Mythos级模型。」现在的「不开放」,是为了未来的「更安全开放」——先让防御体系跟上AI能力,再谈普惠。

四、普通用户的「意外福利」:算力争夺下的体验守护

对普通Claude用户来说,Mythos不开放反而是「隐性福利」。

今年2月起,大量用户吐槽Claude Code「变笨变懒」:Reddit上开发者发帖称「文件读取次数从6-7次掉到2次」,AMD AI总监Stella Laurenzo公开批评其「dumber and lazier」。核心原因很现实:训练Mythos这样的超大模型需要海量算力,只能从现有服务「挤资源」——动态负载均衡、自适应思考深度降低,结果就是用户感知的「降智」。

现在Mythos不开放公众使用,意味着算力不再被新模型过度挤占。Anthropic可以把资源集中在现有服务优化上,避免Claude和Claude Code继续「性能跳水」。更长远看,Mythos帮大厂和开源项目修复的漏洞,最终会惠及所有用户——你的浏览器更安全、操作系统更稳定,背后可能就有这个「不开放模型」的功劳。

五、技术狂奔时代的安全命题:能力与风险的平衡

Claude Mythos的「锁仓」,撕开了AI发展的核心矛盾:当技术能力远超社会防御能力,「慢一步」反而比「快一步」更负责任。

过去几年,AI行业习惯了「唯参数论」「唯性能论」,却很少思考:当模型能自主发现27年漏洞、能秒破千个系统缺陷,我们的安全体系是否准备好了?就像核技术的发展需要国际公约约束,AI的「超能力」也需要「安全护栏」。Anthropic的选择,不是拒绝进步,而是给行业留出时间加固地基——让防御技术跟上进攻技术,让基础设施扛住AI冲击,让普通用户最终能安全地享受技术红利。

或许未来某一天,当我们打开Claude,看到的不仅是97.6%的满分能力,还有「安全」二字的沉甸甸分量。那时再回头看,这次「不开放」的决定,可能是AI行业走向成熟的关键一步。

相关内容

江浙沪酒店床上用品源头厂家...
导语: 酒店布草作为提升客户体验与酒店形象的关键元素,其品质直接影...
2026-05-28 23:59:51
数码打印机正在重塑装饰画市...
你可能在逛家居店时留意过那种玻璃上印着山水、油画或者极简线条的装饰...
2026-05-28 23:58:13
原创 ...
珠宝匠第1612篇原创 珠宝匠,一站式专业珠宝平台。提供深度珠宝知...
2026-05-28 23:53:47
义乌网店饰品批发选型参考:...
摆摊卖饰品赚钱,货源选对成功一半 夜市摊位的竞争远比想象中激烈。一...
2026-05-28 23:50:47
哪些隔声板品牌适配家装工装...
建筑声学行业发展现状 随着国内居民对居住与办公环境品质要求的提升...
2026-05-28 23:42:18
聚通装潢:打造透明、精工与...
随着家居装潢行业的快速发展,消费者对装修服务的需求已从单纯的美观追...
2026-05-28 23:39:02
原创 ...
2026年5月26—29日,第30届中国国际厨房、卫浴设施展览会(...
2026-05-28 23:36:48
孚日股份招标结果:家居工厂...
证券之星消息,根据天眼查APP-财产线索数据整理,孚日集团股份有限...
2026-05-28 23:29:54

热门资讯

股票行情快报:欧派家居(603... 证券之星消息,截至2026年5月27日收盘,欧派家居(603833)报收于39.09元,下跌0.53...
自建房装修,如何挑选合适的装修... 自建房装修,如何挑选合适的装修设计服务 在自建房装修过程中,挑选合适的装修设计服务至关重要。这不仅关...
临街阳台不得晾晒!停工工地须及... 日前,佛山市城市管理和综合执法局发布关于征求《佛山市城市容貌标准(征求意见稿)》意见的公告。 意见...
《城市人居温度洞察》发布:门窗... 一份名为《中国城市人居温度洞察》的报告,在2026年4月22日,罗兰西尼门窗422品牌守护日上正式首...
三联机械取得木材加工用刷灰机专... 国家知识产权局信息显示,柳州市三联机械制造有限公司取得一项名为“一种木材加工用刷灰机”的专利,授权公...
步阳取得门扇玻璃小框安装结构专... 国家知识产权局信息显示,步阳集团有限公司取得一项名为“门扇玻璃小框安装结构”的专利,授权公告号CN2...
中冶建工取得用于楼承板拼装的辅... 国家知识产权局信息显示,中冶建工集团有限公司取得一项名为“用于楼承板拼装的辅助工具”的专利,授权公告...
临沂正元取得钢筋绑扎自动定位工... 国家知识产权局信息显示,临沂正元建筑工程有限公司取得一项名为“一种钢筋绑扎自动定位工具”的专利,授权...
中国石油取得超高温油井水泥缓凝... 国家知识产权局信息显示,中国石油天然气集团有限公司取得一项名为“一种聚合物、超高温油井水泥缓凝剂及其...