关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4251人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"蛋饼姐"在菜市场跳舞走红:10平米把3个孩子供上大学

环球网资讯 浏览 56331

和不扫兴的人在一起多重要?看完花少7后,精神状态都被治愈了

娱乐圈笔娱君 浏览 4037

111年之耻!巴西首次2比0领先却失利,安切洛蒂亲手揪出罪人

奥拜尔 浏览 4365

再次掀翻AI圈!Sora2面前,MiniMax的另类打法

南方都市报 浏览 3975

通过民间借贷获取大额回报,利用职务便利低买高卖房产......农行冯建龙被开除党籍

财通社 浏览 2931

银行批量直售房产 价格从几万元到几亿元不等

经济观察报 浏览 10296

王天辰十年蛰伏终获认可 双剧同播展演技高光

老王的视角 浏览 2517

八位堂推出“任天堂 NES 游戏机 40 周年”主体限定外设硬件

IT之家 浏览 4283

球队新闻:凯文进入比赛名单

绿茵情报局 浏览 866

阿劳霍:我非常喜欢场上的维尼修斯,场外的事情我不在意

懂球帝 浏览 4087

拉齐奥女足称贝尼斯擅自离队,球员经纪人表示俱乐部不发钱

懂球帝 浏览 4164

郭宇欣刘萧旭太原盛典现场互动 太甜了

生性洒脱 浏览 3716

伊朗总统:要么强硬前行要么牺牲

澎湃新闻 浏览 2641

净利腰斩 “非洲之王”传音失速

北京商报 浏览 2931

人到中年别硬凹“少女感”,无龄感穿搭才是王道,优雅显贵

静儿时尚达人 浏览 3335

56岁陈红颜值回春,参加路演不惧高清镜头,她满脸皱纹依旧美丽

温柔娱公子 浏览 4265

事实证明,女人到了五六十岁别再去扮嫩!这样穿又优雅又显贵

静儿时尚达人 浏览 4170

特朗普:空管员不返岗就扣薪 建议停摆期未请假者奖钱

鲁中晨报 浏览 32491

怒摔球拍被拍下!高芙不满澳网直播:我们一点隐私都没有了

全景体育V 浏览 3033

东北大学团队突破人类移动预测难题:让AI像人类一样理解出行规律

科技行者 浏览 4201

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

参考消息 浏览 121003
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1