关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2873人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国军舰大片震撼上新:雷达一开 周围都是透明的

环球网资讯 浏览 34382

AI正在成为“孤独止痛药”,这是社交能力的一场不可逆退化

虎嗅APP 浏览 3213

联合国启动下任秘书长遴选 三大热门人选亮相

红星新闻 浏览 31025

消费股大爆发,但背后另有玄机!

君临财富 浏览 3903

女护士被同居男友杀害 家属:放弃赔偿希望判男方死刑

纵览新闻 浏览 14717

王楚钦:大家都清楚现在的局面,但谁又能说能稳吃我们呢

懂球帝 浏览 1108

美媒:美对伊朗行动选项"远超传统空袭"

新华社 浏览 3068

默茨将率庞大商务团访华 被指"从未如此精心准备出访"

环球网资讯 浏览 39223

冬天大衣怎么穿才更好看?选好颜色、找对单品,高级简约又大气

静儿时尚达人 浏览 3009

俩小伙卖给美军无人机:建"无中国"供应链太难了

澎湃新闻 浏览 33889

又一中将在俄境内被炸死 俄方或实施对等定点清除行动

新民晚报 浏览 30916

"1999年小朋友捐140元给国家造航母"热传 当事人发声

都市快报橙柿互动 浏览 8263

特朗普宣布停火之前 神秘资金精准做空原油、做多美股

每日经济新闻 浏览 57104

艾科维曾通过外部客户转贷逾千万元 两家“0人”供应商合计撑起超五千万元采购额

金证研 浏览 4241

“魏桥系”635亿并购冲刺,张波家族能否稳居中国十大富豪?

野马财经 浏览 3254

豆瓣9.1,宫崎骏大师动画神作最后告别放映!

幕味儿 浏览 3918

鸿铭股份创始人夫妇拟退出董事会,25岁哥大硕士儿子将加入

红星资本局 浏览 3032

特朗普调侃让委内瑞拉成第53个州

红星新闻 浏览 2832

美伊本周有望在土耳其开谈 伊朗或在核问题上松口

上观新闻 浏览 5510

台学者:台当局不办光复节活动 人民无法接受

环球时报新闻 浏览 9617

有没有人能同时挑战泡泡玛特和卡游?

斑马消费 浏览 3190
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1