关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3981人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

她复出拿奖,这次没人笑得出来

独立鱼 浏览 3935

消失8年,她一回归又是王炸

独立鱼 浏览 3146

中东棋局骤变:美以\"师徒反目\"暗流汹涌

浏览 7051

前三季度海洋生产总值7.9万亿元 同比增长5.6%

央视财经 浏览 4065

威胁要对盟国加征关税后 特朗普亲率代表团出席达沃斯

澎湃新闻 浏览 12623

“贝果夹克”今年冬天爆火,怎么搭都时髦!

LinkFashion 浏览 3777

千年《琵琶行》,预制“公关秀”

时尚COSMO 浏览 4105

外媒发布本田全新一代2027款思域预想图,比以往更高级!

老爷车 浏览 4808

特朗普回应小学遇袭 暗示伊朗也可能有"战斧"巡航导弹

北京日报客户端-长安街知事 浏览 32156

斯基拉:尤文派出球探考察萨索洛中场伊斯梅尔-科内

懂球帝 浏览 2198

中国移动成功举办“AI赋能医院后勤管理新发展”论坛

北青网-北京青年报 浏览 3620

媒体:自家老牌车企落后中美 欧盟恐对中国车厂下手

澎湃新闻 浏览 11171

皮衣+裙子、大衣+运动鞋,这4组搭配照着穿就很时髦!

LinkFashion 浏览 2934

武夷山小旅行:走!去山野间,煮一壶茶

黎贝卡的异想世界 浏览 11

TVB颁奖礼红毯老龄化严重!50岁佘诗曼压轴,黄宗泽老到认不出

萌神木木 浏览 2612

时间序列也会"说话"?这个突破性AI让数据图表变成了智能分析师

科技行者 浏览 3389

《御赐小仵作2》空降续集开播!最新口碑出炉,观众评价一针见血

娱乐圈笔娱君 浏览 3235

伊朗:3117人在骚乱中死亡 2427人是民众和执法人员

界面新闻 浏览 2903

鲁内跟腱断裂后,弗里茨等球员控诉ATP不顾球员死活!

网球之家 浏览 4217

百亿龙头股董事长获刑,已上诉!IPO关键期行贿官员,过程曝光

深蓝财经 浏览 3859

松岛辉空颁奖毫无喜色!世排升第8生涯新高 日球迷高呼比张本可靠

颜小白的篮球梦 浏览 3951
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1