关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3021人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

罗马诺:斯帕莱蒂已与尤文签约,随后将官宣

懂球帝 浏览 2586

杜若溪一家海外度假,老公和女儿一起出镜

小小一米月儿 浏览 1933

红军城陷落在即 俄军或迎巴赫穆特后最大胜利

北京日报客户端 浏览 2462

法拉第未来 Super One 迈入批量试制及生产阶段

IT之家 浏览 2607

她们说这才是秋天最实用的单品!6种穿法都帮大家总结好了

黎贝卡的异想世界 浏览 2569

苏州造车新势力Kosmera跑车亮相CES 2026

IT之家 浏览 1763

深圳联通官宣可预约上门办理eSIM业务,暂定截至10月31日

IT之家 浏览 2722

今年流行“洋葱式”穿法,这样穿高级又好看!

LinkFashion 浏览 1991

赛力斯今日成功在香港主板上市 张兴海:开拓中国高端车全球新赛道

证券市场周刊 浏览 2559

心系球队,梅西一家现身看台观战阿根廷vs委内瑞拉

懂球帝 浏览 2866

母亲被父亲刺28刀死亡 11岁儿子因给父亲开门深深自责

都市报道 浏览 13244

苹果CEO库克上海两日行:看LABUBU,首次“直播带货”,直言“太爱中国人和中国文化”

澎湃新闻 浏览 2910

今年冬天,流行穿得“花”一点!

LinkFashion 浏览 2258

Stellantis,“分”或许比“合”好

禾颜阅车 浏览 2630

问界M6主打运动操控,正面对垒小米YU7

驾仕派 浏览 1430

雷军直播拆车,榜一大哥狂送“半辆SU7”

麦浪的玩车之家 浏览 1822

大相径庭,维拉上赛季英超前五轮过后高居第3,本赛季仅第18

直播吧 浏览 3455

普通人穿衣真的很简单!单品选对、搭配合理,大方舒适又得体

静儿时尚达人 浏览 962

金融文化实践录丨深耕特区发展沃土 厚植金融文化根基

证券市场周刊 浏览 2569

4岁娃吃席打翻盘子被要求道歉 父亲:"娃儿小"不是借口

封面新闻 浏览 17225

E句话| 他骨灰都被人盗了?

仙女事件簿 浏览 2019
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1