关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2813人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

惨!武术冠军自掏腰包拍武侠片,成本超1500万,4天票房仅169万

靠谱电影君 浏览 2787

31省份去年平均工资公布,9省份非私营单位平均工资超12万

第一财经资讯 浏览 2740

奥迪A6L直降20.18万!网友:这个优惠力度谁不心动?

汽车网评 浏览 1434

“借鸡生蛋”玩崩!一家由上市公司背书的平台,卷入10亿风暴

深蓝财经 浏览 2523

国内生产国内不卖?比亚迪高管亲口承认,这款车要“回流”国内了

小李车评李建红 浏览 2846

利智输了?李连杰终是没放下一直亏欠的“她”

顾史 浏览 1623

理想MEGA车主声明: 车辆系突发自燃并非电池包破损

网易汽车 浏览 2637

瑞银:中国出现AI泡沫的概率不高,变现靠云与广告

第一财经资讯 浏览 1694

夏天日常穿衣很简单!多用基础款、多穿收腰裙,显瘦又舒适

静儿时尚达人 浏览 4560

特朗普对中国加征100%关税意欲何为 专家:捞谈判筹码

红星新闻 浏览 6253

新风格 全新宝马M3纯电版新测试谍照曝光

车质网 浏览 2193

专家:美对华贸易姿态是战略性失败 不再掌握全球霸权

澎湃新闻 浏览 31508

银行批量直售房产 价格从几万元到几亿元不等

经济观察报 浏览 8890

阿特金森帅位岌岌可危!上季当选年度最佳教练 曾获骑士老板力挺

罗说NBA 浏览 2041

公安分局公示的三个监督电话打不通 官方回应

大风新闻 浏览 7217

李书福罕见发声,吉利豪掷20亿“苦练安全内功”

华山论剑 浏览 2138

富豪阮鸿献给爱女发过亿大红包,已连续三年未登上胡润百富榜

雷达财经 浏览 2419

黄多多晒20岁生日照,美国公寓装修高档

揭秘世间万象 浏览 1429

官方:西汉姆联宣布波特下课

体坛周报 浏览 3141

官方:阿根廷U20主力中卫皮耶拉尼左膝扭伤;据悉无法出战半决赛

懂球帝 浏览 2850

计划对菲律宾出口防空导弹 日本危险动作引担忧

上观新闻 浏览 2190
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1