关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4257人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

9月中级车市场洗牌,新能源新兵为何也栽了跟头?

百姓评车 浏览 4225

剑指千亿!松江卫星互联网产业按下“加速键”

上观新闻 浏览 4132

巴西前国脚埃默松-莱昂:内马尔无法成为任何人的榜样

懂球帝 浏览 4192

加拿大新外长就任后首次访华 外交部回应

新京报政事儿 浏览 9382

男子在狱中病亡14年后获宣告无罪 家属上坟:平反了

澎湃新闻 浏览 23158

欧洲称正考虑反制美国方案 被指手握"10万亿美元武器"

财联社 浏览 3153

Anthropic秘密递交IPO招股书,最快今秋上市

华尔街见闻官方 浏览 18

特朗普就伊朗问题表态 伊朗:不会轻易相信美国

上游新闻 浏览 2910

今年最流行的衣服竟然是它?高级又气质!

LinkFashion 浏览 1321

与欧洲领导人通话 特朗普“言辞强硬”

环球网资讯 浏览 3487

可惜了,这世界第一美少年

独立鱼 浏览 4118

女子乘二等座买到"单人座":空间较宽敞 旁边能放行李

极目新闻 浏览 7530

原来他就是白百何的二婚老公,难怪能逆风翻盘

情感大头说说 浏览 16

他入行30年不温不火,回村务农却火了

艳儿说电影 浏览 4026

德甲欧战,还是只能靠拜仁、多特撑着

体坛周报 浏览 4036

普京:某国准备进行核试验

北京日报 浏览 4218

火箭惨遭雷霆双杀!杜兰特23中7申京两双 亚历山大连续112场20+分

罗说NBA 浏览 3120

姚晨回应即将到期“赎身”!真是弹指一挥间...

犀利辣椒 浏览 3480

卢昱晓真的要被审判到这种程度吗?

伊周潮流 浏览 794

一年蛰伏,亮剑CES:吉利智驾业务深度整合后,交出怎样一份全球化答卷?

封面新闻 浏览 3240

塞内加尔一度罢赛,摩洛哥足协投诉

体坛周报 浏览 3008
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1