关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者3924人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蓄发哥开始重新等待五连胜,阿莫林:希望他能尽快剪掉头发

懂球帝 浏览 3880

预警!到2100年!韩国或再也种不了苹果

看看新闻Knews 浏览 4206

今年夏天的裙子,叠穿才时髦!

LinkFashion 浏览 184

造议员假丑闻、给假新闻链接,谷歌 Gemma AI模型遭投诉后下架

IT之家 浏览 3832

vivo严打“黑公关”:索赔近千万!

互联网那些事 浏览 4218

游客境外租车加错油"全额保险"被判失效 还被扣6000元

封面新闻 浏览 16479

NASA阿耳忒弥斯3号SLS火箭芯级启运,为明年发射铺路

IT之家 浏览 1397

伊朗:驱逐美以大使可自由通过霍尔木兹海峡

界面新闻 浏览 2225

《阿凡达3》票房预估214亿,195分钟一刀不剪,力争影史第一

娱乐圈笔娱君 浏览 3630

比利亚雷亚尔vs阿拉维斯:阿约塞-佩雷斯、帕雷霍首发,阿莱尼亚、洪尼-奥托出战

懂球帝 浏览 3185

本田东京车展亮相0系列电动概念车 揭示未来出行

网易汽车 浏览 4030

EXO见面会遭抵制!官宣12月13日举办,中粉大骂公司要求改期

萌神木木 浏览 4046

OrangePi 6 Plus 开发板公布:12 核 CPU,双 M.2 SSD 双 5GbE

IT之家 浏览 4181

遭美政府和科技企业联合施压 欧盟扛不住了又打算屈服

澎湃新闻 浏览 8021

苗青:光伏“破局者”的周期穿越法则

中国企业家杂志 浏览 2638

AI教育机器人首秀广交会!西班牙客商:科技水平太惊艳了

南方都市报 浏览 4395

荣梓杉出轨约妹照曝光!与李禹熹控诉时间吻合,还曾要求对方删照

萌神木木 浏览 3393

同曦126-123双加时逆转深圳,郭昊文31+6+10,史密斯空砍44分

懂球帝 浏览 2915

笑不活了!网友集体冲进李亚鹏账号评论区,各种神评涌现太离谱!

娱乐圈笔娱君 浏览 3473

或将于2027年发布 宝马iX3 M测试谍照曝光

车质网 浏览 3340

大咖对话:从L2到L4,如何破解高阶智驾落地难题

网易汽车 浏览 3529
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1