爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

德国15人“...

宁愿净身出户...

当AI“和人...

耗时3000...

《逍遥》大结...

唐嫣站位风波...

4.0T V8发动机阿斯顿·马丁DB12 S官图发布

今年冬天最火搭配：毛衣+毛衣，放松穿更好看！

页岩油超级并购来了？Coterra考虑联姻Devon Energy，股价一度涨超10%

沪指4000点临门一脚，与十年前有何不同？豆包AI这样回答

将提升极端场景识别度小米汽车召回超11万台SU7标准版

日本官宣美将在日部署中导系统

泽连斯基：与美国的谈判并不容易

全智贤近况曝光！44岁了放弃谍战剧去拍偶像剧，资源降级遭群嘲

以军空袭也门首都萨那以色列多地拉响防空警报

美媒称马杜罗请求普京提供导弹等援助佩斯科夫回应

省委书记暗访次日市委书记赴现场办公要求加快整改

50+女性秋季穿搭新思路：告别卫衣，这4类上衣让你显嫩又有质感

看了观众对何赛飞的评价，我才明白当年郭宝昌那番话的含金量

户外消费掀新潮，运动产业迎来“功能+时尚”双升级格局

记者：曼市双雄尚未和森林谈安德森，若欧联夺冠森林希望留人

华境S登场在即手捧华为智能全家桶走入寻常百姓家

歌手出场费揭秘！薛之谦价格媲美林俊杰，杨丞琳比张韶涵低50万

隆基Hi－MO X10“三防”组件荣获权威检测证书

三季报发布，中国人寿总保费规模创历史同期新高

赵磊：一个把粉丝当ATM，最后和私生锁死的男人

伊姐周日热推：电视剧《吴邪私家笔记》；电视剧《灼灼韶华》......

刘强东“最值钱”的金融牌照，迎来75后掌舵人

或2027年发布全新丰田凌放Harrier谍照曝光

向华强说娱乐圈明星美女他看不上眼：除了向太其他都没什么了不起