关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4018人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

许利民:如此困难的情况下大家坚持到了最后,取胜全靠精神力

懂球帝 浏览 3008

已攻入24球,广西恒宸费尔南多打破中乙球员单赛季进球纪录

懂球帝 浏览 4151

巴总理称"将7架印战机炸成残骸" 印方激烈反驳

澎湃新闻 浏览 6038

这个赛季,NBA的玄学将被终结

虎嗅APP 浏览 4185

三年半亏19亿,超90%订单依赖聚合平台,享道出行IPO底气在哪儿?

尺度商业 浏览 4022

“双11”本地之战|淘宝便利店剑指美团腹地 电商巨头激战线下“最后一公里”

北京商报 浏览 4003

享界S9同款平台,极狐全新MPV也有小蓝灯

爱驾天下 浏览 3456

斯塔默:允许美使用英方有关军事基地打击伊朗导弹设施

环球网资讯 浏览 42488

日本在台附近部署进攻性武器 中方回应

环球网 浏览 3706

美军营救飞行员出动155架飞机

新华国际头条 浏览 1525

陈天桥亲自下场押注脑机接口赛道,中国首家超声波BCI企业格式塔成立

华夏时报 浏览 3250

马斯克摊牌,商业航天不赚钱!

米筐投资 浏览 16

2025年全国居民健康素养水平达到33.69%

央视财经 浏览 3180

瓷器店里的蛮牛?非也! 兰博基尼在华20年成长路

网易汽车 浏览 4142

MCON推出滑盖外接手柄,致敬PSP Go/Xperia Play滑盖掌机

IT之家 浏览 4511

意媒:尤文有意引进拜仁小将利契纳,但尚未与拜仁接触

懂球帝 浏览 4275

今年冬天流行的“倒三角”穿法,时髦又高级!

LinkFashion 浏览 3228

马克龙不加入和平委员会 特朗普:加征关税他就会加入

界面新闻 浏览 12454

香港警方含泪通报:要让每一位遇难者都有名字

扬子晚报 浏览 17789

将于四季度上市 东风日产新款天籁亮相

车质网 浏览 3783

借小贝之力,三狮欲赴迈阿密集训

体坛周报 浏览 4103
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1