关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者3161人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Anthropic秘密递交IPO招股书,最快今秋上市

华尔街见闻官方 浏览 8

法国队史第3次闯入U20世界杯半决赛,此前一次夺冠一次第4

懂球帝 浏览 4265

洛里昂vs布雷斯特:姆沃戈、马肯戈首发,迪纳-埃宾贝、阿若克出战

懂球帝 浏览 4158

重庆一大学生发帖称老师"刻薄" 老师不接受道歉将起诉

封面新闻 浏览 9977

石药集团185亿美元合作背后

YOUNG财经 浏览 2929

苹果芯片不够用了

北京商报 浏览 2890

59元钓鱼3小时,年轻人只想静静

中国企业家杂志 浏览 3337

德佬:我本来不想让KK的团队得逞,但最终不得不把他卖掉

懂球帝 浏览 4931

《太平年》演员演技排名,朱亚文第6,梅婷第3,第1众望所归

娱乐圈笔娱君 浏览 3040

解放军报:身份没有豁免权 功劳不是抵罪券

中国军网 浏览 3044

还是这些穿搭最适合秋天,以基础款为主、针织衫配裙子,很显气质

静儿时尚达人 浏览 4028

把孩子气的!某新能源车一配置被小学生投诉,车企一本正经回应了

小李车评李建红 浏览 2321

马德兴:张瑷晖因脚踝受伤没参加U23国足第二日的合练

懂球帝 浏览 3217

部分苹果 iPhone 17 Pro/Max 用户反馈机身褪色

IT之家 浏览 4175

看玄彬孙艺珍这样撒糖,谁能扛得住

Yuki女人故事 浏览 3644

孙红雷和妻子王骏迪逛街,比老婆矮显娇小

八怪娱 浏览 3237

99年女生读博时退学去开公司修家电:好评近100%

大象新闻 浏览 23636

媒体:高市当选新首相 极端保守立场或激化与中国矛盾

环球网资讯 浏览 9197

詹卢卡-曼奇尼已为罗马打进21球,为队史进球第二多的后卫

懂球帝 浏览 916

员工超长时间如厕被开除 单次最长4小时辩称护理痔疮

环球网资讯 浏览 7544

娜扎《玉茗茶骨》解锁国风新体验

呱田里的猹 浏览 3153
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1