关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4025人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

埃迪-豪联赛对前东家伯恩茅斯7场不胜,并列英超最长纪录

懂球帝 浏览 4950

这才是打开秋季的穿衣方式!衣服不贪多、搭配得体,养眼舒适

静儿时尚达人 浏览 6103

这波操作太狠了!剪辑连夜删除邓莎路行镜头

娱乐圈笔娱君 浏览 3949

工信部下达“强制瘦身令”:不达标的新能源车,禁止“出道”

DearAuto 浏览 3044

记者:贺希宁效力深圳8赛季仅缺席19场,铁人属性源自极致自律

懂球帝 浏览 201

票房破13亿,只是个开始

皮皮电影 浏览 4494

港女最爱的国产单品,赢了特斯拉?

新周刊 浏览 3639

中航大学:AI聊天机器人的"假身份证"攻击如何骗过智能助手

科技行者 浏览 4117

诺丁汉森林公布扩建主场计划,将把主场扩建到52000座

懂球帝 浏览 3414

埃尔多安指责以色列违反加沙停火协议

新华社 浏览 4119

哔哩哔哩董事长兼CEO陈睿:优质视频内容能给用户获得感

上游新闻 浏览 3875

3500亿小红书,到了最危险时刻?

无冕财经 浏览 832

申万宏源:牛市1.0高点看26年春季 关注储能、存储、创新药与国防军工

智通财经 浏览 3919

活塞99-98险胜老鹰,杜伦21分11板,杰伦-约翰逊空砍29+13

懂球帝 浏览 3604

9家车厂推出“7年低息”,今年车市开局就恶战

汽车公社 浏览 2911

伊称3天内完成核协议草案 美最大核动力航母进入地中海

环球网资讯 浏览 2464

先锋来袭 丰田卡罗拉概念车新车图解

车质网 浏览 2438

多次被传出轨家暴后,小S公开与许雅钧真实状况

动物奇奇怪怪 浏览 193

中美俄都不想的事出现 欧尔班面临下台特朗普力保没用

博览历史 浏览 14302

库克直播间带货 苹果换了打法

北京商报 浏览 4366

小插曲,威尔士对比利时的世预赛中有老鼠入场短暂干扰了比赛

懂球帝 浏览 4232
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1