关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3985人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以专家:以色列唯一正确选择 就是100%服从特朗普安排

中国新闻周刊 浏览 12225

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

网易汽车 浏览 968

AI竞赛白热化!全球资本开支飙升,中国快速追赶

第一财经资讯 浏览 4088

截至9月底 全国累计发电装机容量同比增长17.5%

央视财经 浏览 3326

刘维伟回国寄语杨瀚森:未来不会顺利每天都要进步 获赠签名球衣

醉卧浮生 浏览 4105

日本知名巨头退出中国内地市场 有门店日排队3000桌

21世纪经济报道 浏览 8290

马克龙警告美国:侵犯格陵兰岛将引发"前所未有后果"

环球网资讯 浏览 14474

塞维与16岁小将续约,该小将系68岁大股东儿子、现主席弟弟

懂球帝 浏览 204

斯基拉:那不勒斯预计近期与梅努经纪人进行新的直接会谈

懂球帝 浏览 3425

以色列对胡塞开展投弹量最大一次空袭

环球网资讯 浏览 4602

白敬亭带着无限流杀回来了,这剧真的很好看!

伊周潮流 浏览 4882

中东局势冲击能源市场,影响多大?外资资管最新研判!

券商中国 浏览 2224

被指拒动用冻结俄资产援乌系因不想得罪美国 日本否认

环球时报国际 浏览 8254

OpenAI与亚马逊签署380亿美元算力采购协议,减少对微软依赖

IT之家 浏览 3953

曲婉婷近照疑曝光!眼神闪躲像躲债

小徐讲八卦 浏览 3128

广安爱众0元收购一新能源发电公司90%股权

红星资本局 浏览 4882

“双11”本地之战|淘宝便利店剑指美团腹地 电商巨头激战线下“最后一公里”

北京商报 浏览 4004

看了鲁豫对章小蕙的采访,最大感触是这一点

黎贝卡的异想世界 浏览 2981

日方对中俄联合空中战略巡航表示担忧 外交部回应

央视新闻 浏览 21147

消息称小鹏今年将推G01等4款新车,冲击55万-60万销量目标

IT之家 浏览 3113

“苏超”MVP范厚泰:感恩亚泰,感恩泰州,感恩“苏超”平台

懂球帝 浏览 3449
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1