关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4015人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今年一定要拥有这件“爆火单品”,让你美出新高度

LinkFashion 浏览 2727

普通人穿衣不需要太复杂!颜色恰当、搭配和谐,高级又耐看

静儿时尚达人 浏览 2434

家居巨头杀入汽车圈,为渠道跨界找到新解法

汽车公社 浏览 3106

赵丽颖好事将近?闺蜜给她的生日祝福好微妙,被怀疑恋情有新进展

萌神木木 浏览 4118

大湾区晚会太混乱!跑调抢拍忘词破音全占了,合唱几乎都翻车

萌神木木 浏览 3828

次节觉醒,杨瀚森半场8中3得9分6板1助3帽3失误,正负值-3

懂球帝 浏览 3797

马伊琍新年第一天晒全家福!和大女儿合影好温馨

隔壁灵妹妹 浏览 3239

进博面对面|默沙东中国总裁唐凯宇:加速推动医药创新成果落地中国

中国商报 浏览 4126

邦本宜裕:给自己本赛季表现打100分,本来想完成20个助攻

懂球帝 浏览 3935

美国微软公司:10月14日起Windows 10将“停服”

财闻 浏览 4148

6.4万star的开源智能体框架重构!OpenHands重大升级,叫板OpenAI

机器之心Pro 浏览 3765

特斯拉在华重要招聘!

电动知家 浏览 3261

伊朗外长折返伊斯兰堡内情披露

国际在线 浏览 1042

卷首语|这届年轻人,全员渡劫奥德赛

时尚COSMO 浏览 941

金秀贤消失一年近况曝光,坚强筹备今年复工

汪巗的创业之路 浏览 911

TA:接近阿韦洛亚的消息人士暗示,他的合同并非仅限于本赛季

懂球帝 浏览 2993

毛衣+衬衫、夹克+裙子,今年秋天最流行的4组搭配,时髦又减龄!

LinkFashion 浏览 3443

铠侠开始提供新一代UFS 4.1闪存样品,随机读取速度提升90%

IT之家 浏览 3006

“六小龙”齐聚乌镇背后:前沿技术已经“飞入寻常百姓家”

贝壳财经 浏览 3994

富勒姆怒斥曼联第一球不应存在,炮轰天大误判!英超官方解释原因

罗米的曼联博客 浏览 2904

胡塞武装称若加沙停火破裂将恢复袭击以色列

极目新闻 浏览 3930
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1