关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1297人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

加拿大留学7年,95后小伙回杭开奔驰摆摊卖盒饭!“大家都只活一次,重要的就是体验生活”

都市快报橙柿互动 浏览 3719

外媒:特朗普反复威胁 欧洲领导人已感到厌倦

参考消息 浏览 15084

年薪300万请来LV高管!泡泡玛特“奢侈品化”的生死赌局

杠杆游戏 浏览 3619

明天会更一部灵异类电影,那就找几张鬼里鬼气的壁纸,大家收图

电影最TOP 浏览 3348

强一股份IPO:始终稳居首位的大客户,未来是否还能带来丰厚利润

览富财经网 浏览 3818

特斯拉2025年交付量跌逾8%至164万辆

澎湃新闻 浏览 3192

《小城大事》:那么宏大,却又那么儿戏,我还是弃剧了

娱乐圈笔娱君 浏览 3120

北约秘书长力挺特朗普:没有美国 欧洲能自保是做梦

红星新闻 浏览 6927

碧姬·芭铎,“穿衣自由”概念的祖师奶

时尚COSMO 浏览 2545

2025款奔驰GLB 220典藏版上市 售价34.99万

车质网 浏览 3076

2026春夏十大流行色

LinkFashion 浏览 2647

宏碁正式推出Swift 16 AI旗舰轻薄本,至高酷睿Ultra X9 388H

IT之家 浏览 3221

伊称3天内完成核协议草案 美最大核动力航母进入地中海

环球网资讯 浏览 2465

申花亚冠赛季首胜!连战蔚山首尔不败,阿苏埃建功,延续5大纪录

奥拜尔 浏览 4177

疯涨400%!光纤价格“狂飙”,四大龙头“躺赚”?

览富财经网 浏览 1552

积压7年,张若昀新剧《完美证据》终于来了!

娱乐圈笔娱君 浏览 2489

7天吸金36亿,合肥冲击“新能源汽车之都”,汽车产业高速发展伴随“阵痛”

红星资本局 浏览 4061

二手车商称雷军在吹牛:现在有的车型降10万都没人要

都市现场 浏览 8287

特朗普透露夜袭细节:"堡垒"中抓走马杜罗

新华社 浏览 3187

郭碧婷自曝和向佐两地分居

萌神木木 浏览 3493

今年秋冬最流行的4件外套,谁穿谁好看

LinkFashion 浏览 3986
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1