关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者1411人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体人:国足主帅应让中青年土帅担纲,说不定杀出一位霍去病

懂球帝 浏览 3527

特朗普:可能接管伊朗的哈梅内伊接班人 在空袭中丧生

扬子晚报 浏览 38105

前安永合伙人,因酒吧斗殴被解雇,早前涉嫌勾引已婚女合伙人被警告

财通社 浏览 2604

今年冬天最流行的4组叠穿,让你美出新高度!

LinkFashion 浏览 1944

看到古力娜扎版嫦娥仙子,才知啥叫气质比脸更重要,木头美人

温柔娱公子 浏览 2826

日媒:如何就美国突袭委内瑞拉表态 高市陷入两难

参考消息 浏览 9248

今年秋天,有这几件单品就够了

黎贝卡的异想世界 浏览 2731

搭载VLA大模型 魏牌全新蓝山智能进阶版年内上市

网易汽车 浏览 2139

开发商送的阳台被收采暖费 业主起诉供热公司法院判了

大风新闻 浏览 7245

"失联风波"过后 画家范曾首度公开露面:近期喜得独子

澎湃新闻 浏览 19063

引领效率革命、深挖万亿红利,京东工业的价值逻辑

尺度商业 浏览 2108

小米车主第1天提车在交付中心撞人 小米内部人士回应

澎湃新闻 浏览 18428

长和:董事会对巴拿马之裁定及相应行动表示强烈反对

每日经济新闻 浏览 3710

HMD Pulse 2 Pro手机跑分曝光:紫光展锐T7250芯片、4GB内存

IT之家 浏览 2085

总投资52亿元:国内首个海上回收复用火箭基地顺利开工

IT之家 浏览 1745

抗日名将孙立人次子已正式向大陆申请 将父亲迁葬故里

环球时报新闻 浏览 14647

长安马自达正在寻找新能源时代连接用户的新方式

澎湃新闻 浏览 2576

老兵们打赢了第一仗,但真正的战争是整个赛季

体坛周报 浏览 2708

一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

新智元 浏览 2799

特朗普突然中止与加拿大贸易谈判 加元汇率直线跳水

每日经济新闻 浏览 8661

疑一则广告惹祸 特朗普宣布终止与加拿大所有贸易谈判

财联社 浏览 8627
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1