关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2637人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马斯克:比尔盖茨最好尽快平掉特斯拉空头头寸

鞭牛士 浏览 2229

玩物造心 | 指尖上的治愈与反骨

时尚COSMO 浏览 2317

这个冬天《鬼怪》“解冻”得有些早

时尚COSMO 浏览 2307

全智贤新剧公然辱华 中国网友细扒发现她黑料越来越多

新民周刊 浏览 25774

新华社权威快报|中国第42次南极考察队从上海起航

新华社 浏览 2561

凑齐“56789”!问界独占鸿蒙智行7成销量,“5界”如何共扛百万辆目标?

时代周报 浏览 1476

吉利ICON巧克力心动紫上市!网友:销量稳了

汽车网评 浏览 2591

奔驰2026年大动作: 推15款新车 AI智舱/智驾将覆盖全系产品

网易汽车 浏览 1732

曝李金铭怀孕待产!直播账号已停更近半年,曾卷入知三当三风波

萌神木木 浏览 1796

瓜迪奥拉:胡桑诺夫明天可上场踢几分钟;罗德里还没完全恢复

懂球帝 浏览 2701

法国队史第3次闯入U20世界杯半决赛,此前一次夺冠一次第4

懂球帝 浏览 2864

普京:某国准备进行核试验

北京日报 浏览 2819

岚图汽车卢放:必须啃下豪华轿车市场这块“硬骨头”

经济观察报 浏览 2125

周定洋告别成都蓉城:人生最艰难决定!在对的时间开启新挑战

奥拜尔 浏览 1749

拒绝悬浮!6部扎心又治愈的“都市家庭剧”

木木汐影视剪辑 浏览 1741

这才是会打扮的中年女人!穿搭不花不绿,简单时髦,值得借鉴

静儿时尚达人 浏览 1975

董路:日本队6届世界杯过不了16强 跟国足24年无缘世界杯一样痛苦

风过乡 浏览 2792

黄仁勋放豪言:到2027年Blackwell和Rubin芯片至少创收1万亿美元

华尔街见闻官方 浏览 554

翻拍一部剧,有这么难吗?

时尚COSMO 浏览 1629

星华新材再落子 收购天宽科技补齐AI算力“下一块拼图”

财闻 浏览 1590

E句话| 马尔福已经成了马年吉祥物?

仙女事件簿 浏览 1391
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1