关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1300人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

迪士尼将对OpenAI进行10亿美元股权投资

第一财经资讯 浏览 2940

真有品味的中年女人,穿衣打扮都有这4个共同点,你中了吗?

静儿时尚达人 浏览 4332

宇树科技更名!正在办理工商变更,已完成首期上市辅导

红星资本局 浏览 4045

女子连续偷吃5个蛋挞 转身大摇大摆走掉

极目新闻 浏览 23042

智己LS9开启预售,33.69万元起颠覆大六座市场

林林Go 浏览 3990

媒体:泰军缴获柬军中国制造反坦克导弹 有人阴阳怪气

新民周刊 浏览 14113

开源版Cowork爆火,逼得Anthropic下放Cowork

新智元 浏览 3021

美媒无法理解:油价这么高 进口最多的中国反而更滋润

书纪文谭 浏览 116657

43岁张杰正式宣布退出!原因令人意外

吴蒂旅行ing 浏览 3052

贵州2岁女童家门口失踪 父亲已去世母亲独自在外打工

红星新闻 浏览 8803

穆西亚拉庆祝梦幻回归

绿茵情报局 浏览 3156

最强Air!苹果全新iPad Air发布:M4芯片加持 4799元起

快科技 浏览 2512

痛批落马副市长的市长也落马了,你别笑

识局 浏览 2945

全球1~8月电池装机量,韩系继续败退

汽车公社 浏览 4274

农商行员工骗贷1600万 名下已无任何可供执行的财产

新京报 浏览 23947

高德重走商业化老路,腾讯、百度迎来反超机会?

蓝鲸新闻 浏览 4735

塞维与16岁小将续约,该小将系68岁大股东儿子、现主席弟弟

懂球帝 浏览 204

林肯航海家特别版上市 一口价25.99万元

车质网 浏览 3056

A股利好来了!多只医药股发布消息

上观新闻 浏览 3465

护肤新趋势!从“表面功夫”到“内调外养”的转变

时尚COSMO 浏览 2526

软银清仓英伟达,孙正义套现415亿

YOUNG财经 浏览 3920
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1