关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3983人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白银50天涨逾80%,疯狂程度远超黄金,历史上爆炒白银往往预示贵金属牛市已到高潮,这次有何不同?

每日经济新闻 浏览 3126

预警!到2100年!韩国或再也种不了苹果

看看新闻Knews 浏览 4204

迪士尼官宣10亿美元投资OpenAI,允许Sora生成米老鼠等视频

IT之家 浏览 3622

2天挨4 针,韩国皮肤科,挤满“特种兵医美”的中国人

每日人物 浏览 3534

2025年全球PC出货量近2.8亿台 笔记本超2.2亿台

快科技 浏览 3141

媒体人:国安从来没说过要解散,也从未想过要自我了断

懂球帝 浏览 3921

男子网购"山羊绒大衣"实为绵羊毛起诉获赔 卖家已去世

红星新闻 浏览 12752

纯度更高的致敬 尚界Z7预告图发布

网易汽车 浏览 3151

星链养AI,值不值?SpaceX的1.8万亿算力豪赌

钛媒体APP 浏览 11

置换价17.99万起 奇瑞风云T11正式上市

网易汽车 浏览 4022

2026支付宝集福最大亮点:新增“健康福”红包,由蚂蚁阿福发放

澎湃新闻 浏览 2932

吴彦祖西湖边穿古装送花,获女游客热情拥抱

往史过眼云烟 浏览 2277

特朗普:“国际部队”将进驻加沙地带

每日经济新闻 浏览 3960

E句话| 王星与女友合体,复盘在缅甸遭遇?

仙女事件簿 浏览 2626

比亚迪连放三招,蒸干城市NOA最后的溢价池丨电厂

电厂 浏览 6

百年老字号的资本挑战:携创收单品安宫牛黄丸,同仁堂医养四冲港股|港E声

时代周报 浏览 3041

赵本山还是没叫醒闫学晶,儿子被举报涉高考移民,本人辽晚遭抵制

萌神木木 浏览 2792

15万预算“抄底”自主SUV 这几款车型闭眼入

独家引擎 浏览 3239

精读季报丨好气!姜诚管理规模掉到115亿元,相较巅峰缩水1/4

一地基毛 浏览 2934

被金高银新剧种草了好多单品,从优衣库到爱马仕都帮大家扒出来了

黎贝卡的异想世界 浏览 3239

泽连斯基:乌克兰将对非短缺武器实施受控出口

政知新媒体 浏览 4621
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1