关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3955人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白银LOF变成了一种分级B

远川聊资管 浏览 2854

足球报:周金辉曾私宴塞蒂恩但他固执不改变,训练缺少强度

懂球帝 浏览 4264

燕翔:A股上市公司增减持特征与近况

首席经济学家论坛 浏览 4119

900万粉丝网红到一村庄办杀猪宴:村民收场地费还分肉

极目新闻 浏览 20904

媒体:中方反制不当域外管辖 欧盟商会又紧张起来了

澎湃新闻 浏览 34651

洪都拉斯3-0大胜海地,奎奥托建功,安东尼-洛萨诺破门

懂球帝 浏览 4190

国家医保局:职工医保个人账户跨省共济今年全国覆盖

商业观察杂志社 浏览 2431

乔治亚理工和微软团队重磅推出:让AI推理更聪明的"思维开关"技术

科技行者 浏览 4033

不少老人宁愿挨冻也不敢开暖气,让人痛心!河北农村取暖问题,不能再耽搁了

每日经济新闻 浏览 3112

9系大六座旗舰SUV又添一员,智己LS9预售33.69万起

网易汽车 浏览 3984

再创历史新高!2025年粮食产量达14298亿斤

央视财经 浏览 3026

广汽丰田双向突围,是疯了吗?

汽车K线 浏览 3698

一瓶丝瓜水在拼多多卖出270万件!国货护肤品用十九年,写下不涨价的承诺

华商网 浏览 3875

患癌母亲"碰瓷"货车司机 儿子怒斥母亲后赔司机3000元

北青深一度 浏览 9503

大疆突然降价有的便宜近1500元 有人傻眼:刚买没几天

大象新闻 浏览 18962

比亚迪技术研发人员涨薪,研发人员总数超12万人

红星资本局 浏览 3470

具身智能老炮再获数亿融资,移动多臂机器人已批量工业落地|36氪首发

36氪 浏览 3477

第六代RAV4荣放双擎精英版上市限时焕新价15.18万元

网易汽车 浏览 2469

豪华大六座SUV/最新鸿蒙座舱 岚图泰山将于11月18日上市

网易汽车 浏览 3894

29分钟打卡29+13!坎宁安完压布伦森被赞MVP 尼克斯陷4连败泥沼

颜小白的篮球梦 浏览 3200

墨尔本新王者, 阿尔卡拉斯拍摄澳网冠军写真

懂球帝 浏览 2932
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1