关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者3163人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

机器人爆单之后

北京商报 浏览 3789

马杜罗被指遭"发小"出卖 委"二号人物"疑与美接触数月

扬子晚报 浏览 7224

荷兰被中美欧同时施压急疯 高官致电北京恳请解决问题

南权先生 浏览 7419

全智贤与《暴风圈》剧方仍未发文道歉

韩小娱 浏览 5124

詹姆斯谈保罗退役:希望他能好好享受最后的赛季,他已无遗憾

懂球帝 浏览 3678

"幽灵外卖"被重罚 58同城APP上又现"幽灵订单"

澎湃新闻 浏览 35188

车长超5米 比亚迪海狮08/海豹08配高阶智驾

网易汽车 浏览 3191

夸克上线千问助手,使用阿里Qwen最强大模型

IT之家 浏览 3852

天冷了,“彩色毛衣”这么穿美翻了!

LinkFashion 浏览 3274

海港亚冠8战不胜!3轮仅1分,对日本球队9战不胜,延续5魔咒

奥拜尔 浏览 4162

李昀锐和孟子义恋情爆热搜,新剧直接无人在意了

陈意小可爱 浏览 4248

美媒:美对伊朗行动选项"远超传统空袭"

新华社 浏览 3064

邓超金鸡奖闹乌龙,苏有朋扯出吴奇隆

丁丁鲤史纪 浏览 3176

24架F-35A隐身战机集结西太平洋

极目新闻 浏览 4356

兰帕德有能,考文垂队史首次取得单赛季联赛六连胜

懂球帝 浏览 4107

排除乌欧参与引发解读 普京与美特使谈了5小时

环球网资讯 浏览 3602

伊姐周六热推:电视剧《樊笼》;电视剧《翘楚》......

伊周潮流 浏览 6

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

红星新闻 浏览 7461

第五代骁龙8之后,旗舰机有了新的“标准版”

科技行者 浏览 3636

理想汽车11月交付33,181辆 累计交付1,495,969辆

网易汽车 浏览 3609

加沙停火协议生效后的48小时:人质将释放、民众返乡

澎湃新闻 浏览 4289
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1