关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4024人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

工业知识联盟在深成立 为工业AI的可靠发展筑牢知识底座

南方都市报 浏览 4326

女子连续偷吃5个蛋挞 转身大摇大摆走掉

极目新闻 浏览 23036

其实李亚鹏只离了两次婚!过往前任太知名,每段感情都是女方受伤

萌神木木 浏览 4290

金莲花奖女配提名 85花顶流之争再升级

桑葚爱动画 浏览 3514

小米SU7换代,或涨价2万元,都会有哪些升级?

正在说车 浏览 3417

美股三大指数集体高开 理想汽车涨超5%

证券时报 浏览 3100

韩安冉回应五婚,称暂时不会结烦了,与宋浩然离婚后仍每天见面

扒虾侃娱 浏览 4143

威刚展示SD 8.0标准SDXC存储卡:顺序读取1.6 GB/s

IT之家 浏览 3249

名记:穆阿尼将继续留在热刺,尤文今夏将再次尝试引进他

懂球帝 浏览 2905

詹俊:阿莫林换人值得肯定,冬窗应该留下齐尔克泽

懂球帝 浏览 3146

辛纳晋级中网男单八强

体坛周报 浏览 4556

官方下场,内娱要出大事儿了

独立鱼 浏览 3358

三只羊最美女主播解约!小杨哥最担心的发生了

首席品牌评论 浏览 2938

小米SU7无法开门驾驶员死亡 雷军未发声累计掉粉29万

新闻坊 浏览 7923

曾因"打包塑料袋10元1个"上热搜 宰客酒楼招牌被强拆

扬子晚报 浏览 31358

海南“半价豪车”真相:代购违规,15年强制报废还得补缴巨款

国际金融报 浏览 3357

美国防部将提供“战斧”决定权交给总统

国际在线 浏览 3908

一年蛰伏,亮剑CES:吉利智驾业务深度整合后,交出怎样一份全球化答卷?

封面新闻 浏览 3235

从负债几百万,到霸榜粮油,抖音直播间隐藏着农业产业带的崛起

锦缎研究院 浏览 4713

河南村庄设环保监测点发通知限制燃油车进村 当地回应

大风新闻 浏览 16309

比尔·盖茨警告:AI或成恐怖主义武器且智能无上限

IT之家 浏览 3152
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1