关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4464人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

世体:拉菲尼亚将坐在替补席额外座位上,为球队提供支持

懂球帝 浏览 4080

国内知名男演员,已任高校校长

公子麦少 浏览 4712

历史二十大网球瞬间(下):费德勒退役,法网立纳达尔雕像!

网球之家 浏览 2512

苹果计划为 iPad Pro 引入 iPhone 17 Pro 的均热板散热

威锋网 浏览 4006

今年一定要拥有这件“爆火单品”,让你美出新高度

LinkFashion 浏览 2729

前三季度海洋生产总值7.9万亿元 同比增长5.6%

央视财经 浏览 4070

马竞战博德闪耀大名单:格列兹曼缺阵,小蜘蛛、瑟洛特在列

懂球帝 浏览 3009

宁波网球公开赛:袁悦2-0战胜王欣瑜,晋级女单16强

懂球帝 浏览 4219

当学科边界被打破:四位顶尖科学家共议“交叉科学”的未来

封面新闻 浏览 4720

特朗普对全世界一视同仁,中美关系未必会更糟

浏览 27259

美媒补刀:高市早苗挑衅中国 日本承受不起

澎湃新闻 浏览 15212

告别“嘴炮自研”:当第一批L3牌照下发,车企要为你的双手负责了

道哥说车 浏览 3333

詹姆斯:湖人的投篮困境终会过去;这周对我来说有点像训练营

懂球帝 浏览 3596

法式纯电钢炮 2026款标致E-308 GT新车图解

车质网 浏览 4779

明抢!中国企业147亿半导体资产被荷兰政府冻结,CEO被停职;小米第三款车YU9多张实车谍照曝光;美团外卖骑手能屏蔽顾客了丨雷峰早报

雷峰网 浏览 4287

韩版Galaxy S26独享,三星Exynos 2600芯片被曝难以走向全球

IT之家 浏览 3613

被处罚的ST云动较年内高点腰斩,符合条件股民可登记索赔

证券市场周刊 浏览 3996

新增蓝牙数字钥匙 迈腾3000万辆甄选款17.49万起

网易汽车 浏览 4259

豫媒:河南队泰国拉练只花了15万元,在当地踢热身赛一胜一平

懂球帝 浏览 3745

强硬夺权、父子决裂!84岁“鞋王”何以至此?

无冕财经 浏览 3112

她不靠穿搭谋生,却因穿搭走红,在穿衣上找到主体性是什么体验?

黎贝卡的异想世界 浏览 3952
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1