关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2783人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黄金、白银突然暴跌!发生了什么?

中国品牌 浏览 2209

性价比最高的MacBook来了!苹果把iPhone处理器塞进笔记本里

快科技 浏览 2753

赛季末巴黎频造新大师,这次小黑能一黑到底吗?

网球之家 浏览 2634

ABB与英伟达共同推进吉瓦级数据中心建设,800VDC供电架构引关注

环球网资讯 浏览 2912

科学家研发可遥控癌痛克星,比阿片类药物更安全

DeepTech深科技 浏览 1661

洪都拉斯3-0大胜海地,奎奥托建功,安东尼-洛萨诺破门

懂球帝 浏览 2815

内娱又增新赛道,三分钟火出圈的叶祖新,坐着就抢了主角的戏

最爱酷影视 浏览 2055

冬天也想穿裙子!附不同温度的穿搭公式

黎贝卡的异想世界 浏览 2337

荷兰被中美欧同时施压急疯 高官致电北京恳请解决问题

南权先生 浏览 5986

闫学晶风波再次升级,娱乐圈多位明星躺着中枪,唯独一人成为赢家

徐帮阳 浏览 1662

钟楚曦过往争议被扒,对苗苗黑脸、戛纳霸占楼梯,一进圈就有野心

萌神木木 浏览 2654

焕然“E”新!近六万亿市场,大变样!

券商中国 浏览 1921

俄乌突现转机?泽连斯基与普京“停火”对话

浏览 6589

百万粉丝网红小英丈夫被刑拘 夫妻已数月未住村里

红星新闻 浏览 41337

"最快女护士"新年第一跑夺冠获1.5万奖金 本人发声

红星新闻 浏览 17052

美媒:美方提出的28点新计划已缩减为19点

极目新闻 浏览 12673

全球港口博弈拉警报?李嘉诚亮终极底牌了

大猫财经Pro 浏览 1442

小鹏 P7+ 汽车累计交付 8 万台

IT之家 浏览 2804

李小龙妻子琳达晚年透露:丈夫其实很怕一种对手

南书房 浏览 2446

联想 ThinkPad P1 2026 AI 元启版 10 月 20 日首销,25999 元起

IT之家 浏览 2880

苏州大学突破:新型注意力机制赋能AI语境适应性对话

科技行者 浏览 1516
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1