关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3957人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

电商老板的焦虑,在被飞书解压?

虎嗅APP 浏览 3971

帕尔马重逢马佐基,三连升的小将

绿茵情报局 浏览 1597

60分!森林狼7名主力缺阵仍134-74狂胜广州,陈国豪6分

懂球帝 浏览 4166

日媒:如何就美国突袭委内瑞拉表态 高市陷入两难

参考消息 浏览 10726

中央一号文件来了!今年有哪些“新表述”?

农民日报 浏览 2989

清华大学等多所顶尖院校联手揭秘智能数据准备革命

科技行者 浏览 2949

美军是怎么抓走马杜罗的

澎湃新闻 浏览 3161

BIO-FORUM 2025 蓄势待发|聚焦生物医药前沿技术,共建全球创新合作生态

上观新闻 浏览 4091

"巴铁"越打越猛阿富汗塔利班致电北京 中方斩钉截铁

健身狂人 浏览 110387

积压7年,张若昀新剧《完美证据》终于来了!

娱乐圈笔娱君 浏览 2487

美拉德过时了?今年冬天最火的4个颜色竟然是它们

LinkFashion 浏览 3129

“霸凌”周迅的奚美娟,现在付出代价了?

除夕烟火灿烂 浏览 3560

业务调整、AI广泛应用,印度IT业“无声裁员”冲击数万岗位

环球网资讯 浏览 4246

ELLE风尚盛典秒变菜市场,有人摔倒、有人调侃内涵,状况百出

Yuki女人故事 浏览 3277

以色列强调人质释放 加沙停火第一阶段协议达成

环球网资讯 浏览 4277

最高法明确:醉驾启用辅助驾驶仍需担刑责

网易汽车 浏览 2342

8155芯片+L2智驾 瑞虎5运动版上市 置换补贴价6.79万元起

网易汽车 浏览 1557

泽连斯基称俄乌和平协议无简单解决方案 普京发声

每日经济新闻 浏览 3575

欧豪:16岁送外卖,21岁遇到贵人谢霆锋

韩驰 浏览 3243

华为跟广汽搞了个启境,它跟界字辈有啥区别?

差评XPIN 浏览 4311

中东局势令美联储政策左右为难

国际金融报 浏览 1543
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1