关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者3165人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

有品味的中年女人,穿衣都有4个共同点,看看你掌握了几个

静儿时尚达人 浏览 3950

知名"富二代"所创明星机器人公司突解散 研发阵容豪华

每日经济新闻 浏览 7828

AI眼镜,大厂第一战

脑极体 浏览 3609

北约启动今年最大规模军演 美国未参与

看看新闻Knews 浏览 2932

虞书欣这剧真的很好看啊!

伊周潮流 浏览 2700

爱马仕继承人,千亿家产被最好的朋友骗光

Yuki女人故事 浏览 3699

AMD Q1营收超预期增长38%,数据中心业务大增57%,二季度指引超预期

华尔街见闻官方 浏览 877

媒体:欧洲在委主权问题上"选择性失语" 很快遭遇反噬

极目新闻 浏览 13628

内娱清流!这4位女星从不拍“吻戏”

喜欢历史的阿繁 浏览 4620

特朗普,重仓了!

中国基金报 浏览 3822

《繁花》声明翻车!官微开始紧急删评,主演胡歌唐嫣等全被牵连

萌神木木 浏览 3874

票房会破10亿?看完《阿凡达3》后,我极其冷静地,写下这篇文章

皮皮电影 浏览 3350

扫街榜百日奇袭:高德正在成为AI时代的超级枢纽

光子星球 浏览 3167

怒批赵睿破坏民族团结后,新疆官媒明着夸胡金秋 疑暗讽男篮队长

念洲 浏览 2521

时隔25年,上一个时代的“英伟达”终于涨回来了

华尔街见闻官方 浏览 3420

罗马诺:鲍勃转会富勒姆谈判进最后阶段,曼城坚持要3500万镑

懂球帝 浏览 3008

燃油+电动全都配 全新宝马4系最新消息曝光

乐选爱车 浏览 2937

小米集团宣布最高25亿港元的自动股份回购计划并将注销

网易财经 浏览 3053

大幅上调英伟达目标价,这家大行的理由:台积电产能分配远超预期,OpenAI“闭环交易”

华尔街见闻官方 浏览 4261

这不是危言耸听:最快明年,比亚迪的插混和纯电,就没有区别了

小李车评李建红 浏览 4205

拥抱AI 沃尔玛跻身“万亿美元俱乐部”

北京商报 浏览 2909
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1