关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4250人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“空中货拉拉”首飞背后:无人运输机争食1.5万亿元低空经济“蛋糕”

上游新闻 浏览 3189

美媒:美军事小组抵达以色列 “监督”执行加沙停火协议

环球网资讯 浏览 4331

伊朗防长:美国"以武促和"实为强制屈服 各国不会接受

极目新闻 浏览 4367

毛衣+衬衫、夹克+裙子,今年秋天最流行的4组搭配,时髦又减龄!

LinkFashion 浏览 3441

男子应聘船员出海严重晕船自缢:一吃就吐 甚至用头撞墙

极目新闻 浏览 9301

别小看这几小事,坚持到过年那状态得有多好啊?

黎贝卡的异想世界 浏览 3060

乌军袭击一生产弹道导弹的俄军工厂

每日经济新闻 浏览 2515

女子被日料店服务员泼开水烫伤:事发后曾接到警告电话

封面新闻 浏览 9343

媒体:日本拥有核武器 只差一把"螺丝刀"

北京日报客户端-长安街知事 浏览 12780

马卡:皇马目前没考虑施洛特贝克,弗里克很欣赏他但转会不易

懂球帝 浏览 3148

亨通光电财运亨通

富凯财经 浏览 3450

理想汽车11月交付33,181辆 累计交付1,495,969辆

网易汽车 浏览 3608

阿维塔王金海:豪华不止于技术 要让用户每天感到品牌在变好

网易汽车 浏览 3496

孔蒂:上赛季我们的夺冠出乎意料,这赛季的目标是全力卫冕

懂球帝 浏览 3609

“烟管裤”今年冬天爆火,怎么搭都时髦!

LinkFashion 浏览 3430

淘宝闪购换CEO:“老将”雷雁群接棒,曾为阿里“中供铁军”成员

时代周报 浏览 1552

谁懂啊!小个子冬日穿搭靠这几招,视觉立刻拔高10cm

黎贝卡的异想世界 浏览 3268

新中式,才是属于我们的时尚与生活

LinkFashion 浏览 3424

美国11月ISM制造业PMI萎缩幅度创四个月最大,就业进一步收缩,价格涨

华尔街见闻官方 浏览 3551

47岁余皑磊演戏多年无人问,一演特务众人知

可乐谈情感 浏览 4238

汽车行业杂耍式营销何时休?

道哥说车 浏览 3158
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1