关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1295人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子年初砸60万买黄金国庆后花20万买白银基金:真运气

潇湘晨报 浏览 18314

三星最贵手机:Galaxy Z TriFold三折叠手机跑分首曝

IT之家 浏览 3604

离婚14年,宁静汪峰再传绯闻,前夫儿子为她争光

枫尘余往逝 浏览 3934

这些知识女性的衣橱,完全不输穿搭博主

黎贝卡的异想世界 浏览 3899

广安爱众0元收购一新能源发电公司90%股权

红星资本局 浏览 4875

新机发售之际,荣耀手机影像专家言论争议不断、引翻车质疑

观察者网 浏览 4192

“精准”归来:戴尔正式宣布推出"Pro Precision"工作站产品线

IT之家 浏览 2205

加速进化抢单“双11”

北京商报 浏览 3990

苏州一企业愿无偿为嫣然医院提供场地 负责人:将详谈

潇湘晨报 浏览 7065

另有安排 大众ID.Polo暂无引入中国计划

车质网 浏览 3840

便宜几千块!三星家电撤出中国后,闲鱼上的「骨折价」值得买吗?

雷科技 浏览 912

从负债几百万,到霸榜粮油,抖音直播间隐藏着农业产业带的崛起

锦缎研究院 浏览 4711

跌落神坛!“逼疯”黄奕,“整了”周迅的他,因王家卫再次被牵连

温柔娱公子 浏览 3156

爱奇艺发布2026年分账内容合作新规

封面新闻 浏览 3039

新不如旧!这4件时髦“旧衣服”今年太火了

LinkFashion 浏览 3021

都在等金银开盘!洪灏:坚定看多长期价值,招行:调整继续,但能到6500

金石随笔 浏览 2892

彭昱畅恋上经纪人!堪称娱乐圈职场恋天花板

小椰的奶奶 浏览 196

蔚来ES9开启预售,电池租用方案预售价42 万元起

北京商报 浏览 1674

美印友谊的中流砥柱被FBI大张旗鼓拘捕 被控"串通中国"

澎湃新闻 浏览 9653

苹果发布 M4 iPad Air:加入 C1X 芯片 4799 元起售

威锋网 浏览 2434

赖清德只字不提台湾光复 还在公然纪念"古宁头战役"

海峡导报社 浏览 9592
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1