爆点资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

广汽传祺1月...

始祖鸟“烟花...

春节档对决张...

38岁的陈晓...

马杜罗在纽约...

双雄对决，最...

西班牙拒绝加入美国发起的“和平委员会”

深耕大健康战略，招商信诺获评2025金柿奖·中国保险健康管理服务样本

影史最伟大的女性电影，登顶130年电影之巅

收藏=会了？你可能确诊“电子仓鼠症”

国家级射击教练因走私武器罪获刑10年:多省射击队购买

谢霆锋跟着遭殃！英皇力捧张敬轩回内地被抵制

零跑汽车引入一汽作为大股东，朱江明回应控制权不变

日本经济长期疲软，日元购买力跌至53年来最低

内容“新物种”，全球“闪电战”｜2025中国短剧出海报告

特朗普公布马杜罗被捕后照片

高圆圆首谈当妈感受：感情都在妈妈身上用完了

哥伦比亚大学团队推出全球首个网络音视频文化理解基准

苏州一企业愿无偿为嫣然医院提供场地负责人：将详谈

小米通报与“大熊”合作处理结果：辞退涉事经办人员

德外长：欧洲和北约议题已从美28点新计划中移除

给过去十年最好的10部“历史剧”排名：《太平年》第7，第1无争议

瓜帅：利物浦和阿森纳都在争冠；英超风格的改变？我会接受

布朗41+7+6绿军险胜双杀太阳布克40+6迎500场20+里程碑

利物浦女足前主帅比尔德的葬礼举行，超过六百人参加

上海AI实验室ImgCoder：AI实现科学手绘图精准生成

“中国巴菲特”晒出苹果持仓，而巴菲特早已减持

澳方称中方军机在南海对澳军机释放干扰弹外交部回应

光线传媒：前三季度净利润同比增长407%

10套不重样出游穿搭，国庆照着穿又美又撩人！