关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4023人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

连Win10都要停服了,那么多电脑该咋办?

江瀚视野 浏览 4316

马丁·厄德高:阿森纳英超近失球经历是“动力”

绿茵情报局 浏览 3005

波兰外交部称有炮弹击中该国驻乌克兰大使馆

极目新闻 浏览 4734

15万预算“抄底”自主SUV 这几款车型闭眼入

独家引擎 浏览 3236

博纳老板于冬被澳门赌场追债400多万

严肃八卦 浏览 2267

德约科维奇仅训练12分钟便显露痛苦状态,澳网前景引发担忧

网球之家 浏览 3115

宝刀不老,34岁加纳老将乔丹-阿尤献7球7助攻率队直通世界杯

懂球帝 浏览 4335

媒体:中东欧三国欲组队 在欧盟内部对援乌政策"掀桌"

上观新闻 浏览 10506

知名"富二代"所创明星机器人公司突解散 研发阵容豪华

每日经济新闻 浏览 7824

女生高考604分放弃本科就读高职 被质疑"没苦硬吃"

环球网资讯 浏览 9377

美媒公布美军打击委内瑞拉蒂乌纳堡基地后景象

环球网资讯 浏览 3200

大S纪念雕像正式揭幕!超10位明星出席,前男友周渝民也现身了

萌神木木 浏览 2890

歌手出场费揭秘!薛之谦价格媲美林俊杰,杨丞琳比张韶涵低50万

萌神木木 浏览 2965

顶楼住户拆除楼板升高数米加盖 一楼出现从上到下裂缝

大风新闻 浏览 13791

特朗普称将审查伊朗提出的结束冲突新方案

极目新闻 浏览 891

前纽卡球员海登:很同情斯特林和迪萨西,我也遭遇过类似情况

懂球帝 浏览 4691

预售20.99万元起 新款领克10正式下线

车质网 浏览 954

戳破马拉松泡沫经济

诗与星空 浏览 4061

解放军举行围台军演 郑丽文:赖清德把自己的路走绝了

海峡导报社 浏览 24797

搭第四代MBUX系统 奔驰纯电GLC亮相2026 CES

车质网 浏览 3162

美伊冲突两个月尘埃未定 伊朗或仍保留约70%导弹库存

看看新闻Knews 浏览 32209
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1