关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4271人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

央视公开“点名”孙俪,原来张艺谋没说错

银河史记 浏览 3900

漆面个性 全新定制迈凯伦750S Spider发布

车质网 浏览 3522

你的包挂挺“妆”的

时尚COSMO 浏览 1482

针对“美式讹诈”:中国为何率先发动反制?

浏览 7783

梁小龙一生太精彩!曾被封杀20年,公开承认出轨,还跟周星驰反目

萌神木木 浏览 3043

今年母亲节,和妈妈一起变漂亮

时尚COSMO 浏览 809

乌代表团赴美谈判 俄乌互相袭击

新华社 浏览 3516

@全球内容创作者:广东喊你来创造,政策大礼包备好了

智谷趋势 浏览 3977

万亿“宁王”,又出手

中国基金报 浏览 4095

泰国外长:泰柬将于12月24日举行会谈 讨论停火细节

财联社 浏览 3288

港科大突破:代码本技术提升AI医学图像分析稳定性

科技行者 浏览 2954

稳定输出,亚历山大22中11砍35分7板6助,三分9中3&11罚10中

懂球帝 浏览 3899

一旦安世半导体分裂,最后谁会哭?

禾颜阅车 浏览 4093

与独行侠续约无望!曝浓眉迫切希望交易离队 愿前往老鹰猛龙打球

罗说NBA 浏览 3245

“空降”印奇和50亿,阶跃星辰上桌了吗?

字母榜 浏览 3036

ImageNet分数越高,生成反而越糊?iREPA给出解释

新智元 浏览 3383

多地现快递驿站转让帖 经营者:每月只赚5千不如当保安

红星新闻 浏览 8927

2026款大众迈腾上市 售价17.99-24.69万元

车质网 浏览 2950

塔帅:赢球能带来能量和信心,我觉得这是足球最重要的两件事

懂球帝 浏览 3075

"性商教母"周媛开启线下课 学员发现台上讲师是前同事

中国新闻周刊 浏览 32858

伊姐周日热推:电视剧《重影》;电视剧《山河枕》......

伊周潮流 浏览 3414
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1