关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4463人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

福建女商人林惠荣提国赔申请获立案 曾服刑7年获无罪

澎湃新闻 浏览 7648

拉夫罗夫被指"地位下降" 克宫否认其与普京关系紧张

红星新闻 浏览 9137

9月MPV销量榜大洗牌,魏牌高山首夺魁,新能源车型主导市场格局

玩车专家1 浏览 4260

郑恺&李沁,向你发出“网”友申请

时尚COSMO 浏览 808

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者 浏览 4065

广东为胡明轩庆生!杜锋高待遇,多人摁头往蛋糕砸,想报复却未果

篮球资讯达人 浏览 2354

CES2026开幕,英伟达黄仁勋提到多个中国大模型,这些中国产品将亮相

文汇报 浏览 3294

充满争议仍获放行:密歇根州批准为甲骨文与OpenAI超级数据中心供电

华尔街见闻官方 浏览 3461

吴千语施伯雄逛街被偶遇,勾肩同行 有说有笑

扒虾侃娱 浏览 3994

委内瑞拉:启动"前所未有"后勤动员

参考消息 浏览 3374

养乐多卖不动了?

斑马消费 浏览 4216

"福特"级航母电磁弹射器困住美军 重设计需数十亿美元

环球时报国际 浏览 10732

《逍遥》大结局:最恨妖的人却成了妖,秉烛的宿命太扎心!

肆季娱乐 浏览 3260

包贝尔新片上映就爆了!没想到真敢拍!事实证明:它的尺度真不小

娱乐圈笔娱君 浏览 850

本赛季英超后卫失误致丢球排行:范赫克4次居首,范戴克等人2次

懂球帝 浏览 221

渝超北碚队违规使用中乙球员,组委会:正在调查,将及时处理

懂球帝 浏览 4186

RT-Thread熊谱翔:开源是国产操作系统构建生态的最佳路径

观察者网 浏览 3145

高端汽车市场创2亿营收,「悉智科技」拓疆AIDC蓝海 |36氪首发

36氪 浏览 3520

4岁走失女童找到 参与救援的派出所所长在孩子旁边哭

极目新闻 浏览 10047

拉波尔塔:如无意外月底回归诺坎普;弗里克在巴萨很开心

懂球帝 浏览 3996

北京105-74广东3利好!曾凡博+斯佩尔曼轰最佳状态,三分联盟第1

篮球资讯达人 浏览 3364
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1