关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4254人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卢浮宫抢劫案两嫌疑人均30多岁 一人试图登机离境被抓

极目新闻 浏览 9084

张家界荒野求生赛剩1名女选手:瘦得判若两人 称想吃肉

现代快报 浏览 9922

“玻璃大王”曹德旺提前退休,儿子曹晖接班后福耀帝国走向何方?

尺度商业 浏览 4253

能换电池还能焊模块的手机来了

IT之家 浏览 2999

伊朗最高领袖哈梅内伊遇害 中方回应

财联社 浏览 2454

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

静儿时尚达人 浏览 3263

《恋人》要空降?会成下个《许我耀眼》吗?

楚楚号 浏览 3397

美防长被指佩戴与俄国旗颜色一致领带引猜测 万斯回应

环球时报新闻 浏览 9107

奥恰洛夫谈击败张本智和:我打出了顶级水准,自己也有些意外

懂球帝 浏览 4031

连续被血洗!今年前十个月的涨幅,币圈一个月跌完了

华尔街见闻官方 浏览 3912

2026,什么样的企业家还能留在牌桌上?

雪豹财经社 浏览 2896

专家:特朗普对中国无牌可打了 没想到蠢到打起波音牌

澎湃新闻 浏览 4165

首款可折叠iPhone最新消息:或在2026年秋季发布

环球网资讯 浏览 3584

东风计划2026年将欧洲销量提升至8万辆

盖世汽车 浏览 4722

星际彗星 3I / ATLAS 亮度异常激增,科学家困惑不解

IT之家 浏览 3931

比取消特普会更严厉的制裁来了 特朗普称不想浪费时间

文汇报 浏览 7317

从移动设备到机器人,高通如何解锁端侧AI的「全域智能」?

雷峰网 浏览 3104

或叫欧拉5?欧拉全新SUV要来了!

车叫兽 浏览 4954

2027年发布 新款路虎揽胜运动SV谍照曝光

车质网 浏览 2755

特朗普:对伊战事结束 无限期延长停火

财联社 浏览 895

耗时3000小时 近40万美元拿下完美修复的路虎卫士

CLauto酷乐汽车 浏览 3060
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1