爆点资讯

当我们训练人工智能写代码或解数学题时，就像教小孩做作业一样，需要给它很多练习题。但问题来了：有些题目太简单，AI一下就会了；有些题目太难，AI怎么也学不会。更麻烦的是，按照传统方法，不管题目难易，我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间，也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队，在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器"，让它能够根据题目难度自动分配练习时间，既不浪费计算资源，又能确保每道题都学得扎实。

研究团队的核心发现是：当前主流的AI训练方法GRPO（组相对策略优化）存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时（要么全对要么全错），系统就收不到有用的学习信号，就像老师看到学生交上来的作业要么全是满分要么全是零分，无法判断学生的真实水平。

为了解决这个问

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

真爱大牌破价...

特朗普在10...

北约和俄罗斯...

38岁何洁二...

“这个风格”...

26款名爵M...

国信策略：抢占科技发展制高点

在特斯拉model Y和小米 YU7里二选一，怎么选？

“万元定价”已成新趋势？人形机器人也打起了价格战

「好想来」与鸣鸣很忙，谁都成不了蜜雪冰城

李小冉回复孙艺洲《心愿便利贴》：好皮的孩子

抖音：卖茅台低于市场行情价将被处罚

极狐乔心昱：北汽新能源行业首个实现L3-L4自动驾驶技术全覆盖

体图：格纳布里愿意接受较低薪资，拜仁可能和他续约两年

戴维斯被视为活塞头号目标梭哈年轻资产仍存疑虑

泰国王太后诗丽吉逝世享年93岁，后宫恐加混乱

李开复，在成都投了一家“0卡糖”

杨采钰当妈后首个生日，富豪老公高调晒照表白

非足联官方：强烈谴责决赛期间不当行为，目前正审查相关画面

稳了，“毁容式”出演县长的胡歌，已经走上了演员的“上坡路”

曾成功应用于马斯克脑机接口临床实验！西门子医疗脑机接口全流程解决方案亮相

写了10年流行色，今年这个真的很适合亚洲人

深圳自动驾驶安全实验室揭牌成立，将重点攻坚十大方向

预警！到2100年！韩国或再也种不了苹果

标配激光雷达新款领克07EM-P限时13.98万起

她曾追求刘德华至家破人亡,如今怎么样了

加沙停火草案被美国一票否决中国大使发出＂灵魂三问＂

若羽臣：抖音已成为公司重要渠道之一

50+姐姐别乱穿！这4个秋天“显贵”的搭配思路，越老越有韵味

苏丹快速支援部队宣布同意实行人道主义停火