174名北大学生能否考过AI?结果很意外
创始人
2025-12-28 13:44:22
0

在北京大学化学与分子工程学院,有机化学考试是许多同学痛并快乐着的挑战。然而,期中考前突如其来的一条通知,却让这场考试的气氛变得不同寻常:

“请注意,本次考试范围不仅限于有机化学。”

但比起考试范围的变化,考场里迎来的一批“特殊考生”,更让人意想不到。

它们不需要落座,也无需纸笔。它们是GPT、Gemini、DeepSeek……这些当下世界上最聪明的AI,正在云端与174位北大化学与分子工程学院的大二学生同场竞技。

这是一场精心设计的“图灵测试”,也是北大科研团队为大语言模型投下的一块“试金石”。

近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem。近期,他们以一套“北大试卷”为标尺,冷静丈量着AI在科学推理上的真实边界。

考试现场

一场特殊的期中考

打开SUPERChem的题库,一种“压迫感”扑面而来。

晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。

为什么要费尽周折重新出题?

“因为大模型太会‘背书’了。”团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读。而化学,恰恰是一门不能只靠死记硬背的学科。它既有严密的逻辑推演,又充满了对微观世界的空间想象。“我们非常好奇,大语言模型的一维 next token prediction,能否解决二维、甚至三维空间中的复杂推理问题。”

要设计一套让AI“没见过”、必须靠硬实力推理的题目,难度极高。然而,这正是北大化院的独特优势所在。近百名师生——其中不乏奥赛金牌得主——集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷。

他们要考的,是AI是否真的“懂”化学。

一场游戏中的学术共创

设计题目往往是枯燥的,但这群年轻的北大人却把它变成了一场“游戏”。

为了构建这套高质量评估集,团队搭建了一个专属协作平台。在这里,出题、审题、修题从单调的任务,变成了一套循序渐进的“通关”流程。成员们在平台上协作,互相审阅、彼此“找茬”,让严谨的科学探讨与活跃的思维碰撞交织共融。

团队还引入了积分激励系统,让出题过程就像在游戏中打怪升级。一道题目需历经编写初稿、撰写解析,再通过初审与终审的严格审核,每个环节均由不同的同学把关,并发放相应的积分。终审通过的题目,甚至最多迭代过15个版本。

SUPERChem题库的三阶段审核流程

当最强大脑遇上“北大难度”

考试成绩揭晓。

在这场精心设计的考试中,人类展现出了复杂的科学直觉。作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身,就足以说明这套题目的硬核程度。

而AI的表现如何?

即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当。

前沿模型在SUPERChem上的表现

前沿模型的正确率与RPF关系

让团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明,当前的AI在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。

输入模态对不同模型的影响

然而,即使选对了答案,解题步骤也可能经不起推敲。因此,团队为每一道题目都标注了详细的评分规则。在SUPERChem这台“显微镜”下,AI是真懂还是装懂,一目了然。

团队发现,AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。

推理断点所属化学能力分布

通向AGI的一小步

SUPERChem的诞生,填补了化学领域多模态深度推理评测的空白。

团队发布这项成果,并非为了证明AI的短板,而是为了推动它走得更远。SUPERChem就像一个路标。它提醒我们:从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从“记住知识”到“理解物理世界”的跨越。

目前,SUPERChem项目已全面开源。团队希望这套源自北大的“试卷”,能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。或许在不久的将来,当我们再次打开这张试卷时,AI能交出一份满分的答卷。那将是化学与人工智能共同的惊喜。

挑战一下?

我们选取了一道未能进入SUPERChem题库的“简单”题目,邀请你来体验这场考试。

为纪念门捷列夫发现元素周期律150周年,国际纯粹和应用化学联合会将2019年设为“国际化学元素周期表年”。门捷列夫预言了多种当时未知的元素,M即为其中之一。

M是一种银白色金属,质软,能溶于浓硫酸、硝酸、盐酸和稀碱溶液。M与氧气加热至250 °C反应,可得到淡黄色固体A,A经SOCl2处理可得到亮黄色固体B,B也可由M与黄绿色气体C直接加热反应得到;若将B与单质气体D加热至200 °C反应,则转化为红色固体E;将M直接溶于稀盐酸,也可得到E的溶液;但若将镀有M的镁片溶于稀盐酸,可以制得少量二元化合物F;F在常温下为液体,不稳定,其水溶液显酸性;F能与金属钾反应,生成淡灰色固体G,并放出单质气体D。

根据上述信息,从以下选项选出正确的说法:

A:物质M的原子序数和族数的奇偶性不同

B:镀有M的镁片与稀盐酸反应,产物中Mg的化合价与A中M的化合价一样

C:G具有反萤石结构

D:由于空气氧化,E溶液久置会转化成含B溶液

来源:北京大学

相关内容

EVASON 梵森全屋定制...
拒绝装修“智商税”,深度解析EVASON 梵森全屋定制为何比传统门...
2026-06-27 15:57:14
天津有家装需求的业主如何挑...
当前天津家装市场供给丰富,覆盖不同价位、不同需求的各类服务,不少有...
2026-06-27 15:56:21
如何选择抚顺装修设计 本地...
抚顺家装行业需求概况 近年来抚顺居民住房改善需求持续释放,刚需新房...
2026-06-27 15:55:53
2026年惠州净化车间装修...
在洁净净化装修车间行业,想要找到合规靠谱的服务商,不少企业都踩过坑...
2026-06-27 15:54:04
保定庭院铺装怎么挑选适配的...
庭院铺装石材的核心需求 华北地区尤其是保定的庭院铺装,对石材的性能...
2026-06-27 15:52:37
2026沈阳阳台防水,本地...
在沈阳,阳台防水是房屋修缮中的高频需求,尤其面对本地冬季严寒、夏季...
2026-06-27 15:51:23
2026年上海门窗荣誉榜单...
2026年5月,由上海幕墙门窗建筑协会主办的2026上海门窗行业年...
2026-06-27 15:50:22
夫妻开门窗店新选择,202...
今天分享一位客户的经历,为了让大家更清晰了解到整件事的脉络,现以第...
2026-06-27 15:49:11
法式复古门窗定制厂家推荐,...
在当今的家居装修领域,法式复古门窗因其独特的魅力备受青睐。它们不仅...
2026-06-27 15:48:08

热门资讯

南钢股份招标结果:板材事业部中... 证券之星消息,根据天眼查APP-财产线索数据整理,南京钢铁股份有限公司6月22日发布《板材事业部中板...
浙江弘达电气取得电梯隔离开关传... 国家知识产权局信息显示,浙江弘达电气有限公司取得一项名为“一种电梯隔离开关的传动装置”的专利,授权公...
汇芯半导体申请死区时间控制电路... 国家知识产权局信息显示,黑龙江汇芯半导体有限公司申请一项名为“一种死区时间控制电路、PCB板及控制器...
信众科技取得可靠性更高的开关电... 国家知识产权局信息显示,深圳市信众科技有限公司取得一项名为“一种可靠性更高的开关电源电路”的专利,授...
江淮汽车取得车门铰链结构相关专... 来源:新浪证券-红岸工作室 6月27日消息,国家知识产权局信息显示,安徽江淮汽车集团股份有限公司申请...
致欧家居取得床架支撑装置相关专... 来源:新浪证券-红岸工作室 6月27日消息,国家知识产权局信息显示,致欧家居科技股份有限公司申请一项...
大理石茶几定制哪家好?可靠商家... 在如今的家居装饰中,大理石茶几以其独特的美观和卓越的品质,成为众多消费者的心仪之选。然而,面对市场上...
多部门联动守护民生餐桌,黄石全... 极目新闻记者 梁传松 通讯员 程贞贞 6月26日,湖北黄石举行2026年食品安全民生实事工作推进新闻...
2026年评价高的广东床垫定制... 一、酒店床垫定制行业现状与发展背景 国内酒店行业进入存量升级与增量扩张并行的发展阶段,不同品牌、不同...
原创 1... 亲爱的读者, 在这个快节奏的生活中,家是我们最放松的避风港。而沙发背景墙,作为家中的视觉焦点,其设...