关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4464人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

巴基斯坦防长警告阿富汗：任何袭击都将招致50倍强度的回应

环球网资讯浏览 4009

北京现代纯电SUV EO羿欧开启预售 13–15万元

网易汽车浏览 3909

海昌智能IPO：“母子”共同“闯关”，重大关联交易或成拦路虎

览富财经网浏览 3123

精彩推荐

世体：拉菲尼亚将坐在替补席额外座位上，为球队提供支持

懂球帝浏览 4080

国内知名男演员，已任高校校长

公子麦少浏览 4712

历史二十大网球瞬间（下）：费德勒退役，法网立纳达尔雕像！

网球之家浏览 2512

苹果计划为 iPad Pro 引入 iPhone 17 Pro 的均热板散热

威锋网浏览 4006

今年一定要拥有这件“爆火单品”，让你美出新高度

LinkFashion 浏览 2729

前三季度海洋生产总值7.9万亿元同比增长5.6%

央视财经浏览 4070

马竞战博德闪耀大名单：格列兹曼缺阵，小蜘蛛、瑟洛特在列

懂球帝浏览 3009

宁波网球公开赛：袁悦2-0战胜王欣瑜，晋级女单16强

懂球帝浏览 4219

当学科边界被打破：四位顶尖科学家共议“交叉科学”的未来

封面新闻浏览 4720

特朗普对全世界一视同仁，中美关系未必会更糟

美媒补刀：高市早苗挑衅中国日本承受不起

澎湃新闻浏览 15212

告别“嘴炮自研”：当第一批L3牌照下发，车企要为你的双手负责了

道哥说车浏览 3333

詹姆斯：湖人的投篮困境终会过去；这周对我来说有点像训练营

懂球帝浏览 3596

法式纯电钢炮 2026款标致E-308 GT新车图解

车质网浏览 4779

明抢！中国企业147亿半导体资产被荷兰政府冻结，CEO被停职；小米第三款车YU9多张实车谍照曝光；美团外卖骑手能屏蔽顾客了丨雷峰早报

雷峰网浏览 4287

韩版Galaxy S26独享，三星Exynos 2600芯片被曝难以走向全球

IT之家浏览 3613

被处罚的ST云动较年内高点腰斩，符合条件股民可登记索赔

证券市场周刊浏览 3996

新增蓝牙数字钥匙迈腾3000万辆甄选款17.49万起

网易汽车浏览 4259

豫媒：河南队泰国拉练只花了15万元，在当地踢热身赛一胜一平

懂球帝浏览 3745

强硬夺权、父子决裂！84岁“鞋王”何以至此？

无冕财经浏览 3112

她不靠穿搭谋生，却因穿搭走红，在穿衣上找到主体性是什么体验？

黎贝卡的异想世界浏览 3952

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1