关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2705人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

仅上任两个月!某车企董事长突然辞职

汽车工程师 浏览 1767

俄总统助理:普京和特朗普会晤意愿依旧存在

每日经济新闻 浏览 2672

内塔尼亚胡向特朗普赠送金色鸽子雕塑

国际在线 浏览 2787

高市在日本青年群体中获极高支持率 专家解读

北京日报 浏览 17925

这才是中年女人该有的穿搭,上衣挺括、下装宽松,优雅又显瘦

静儿时尚达人 浏览 1443

Meta被曝靠诈骗广告赚取巨额利润

北京商报 浏览 2566

为什么骑手的保障,“普惠”更重要?

财经无忌 浏览 2687

岁月不败美人!贾静雯、杨谨华、林心如,她们的40岁比20岁更美

LinkFashion 浏览 2159

合纵连横更进一步,本赛季双子星同参赛无一冠军旁落!

网球之家 浏览 2578

王祖贤隐退真相曝光!王晶坦言两点

妙知 浏览 2736

徐静蕾美国超市现身,黄立行白发相伴

墨语家 浏览 1701

德国一公司研发无贵金属电极技术让绿氢生产又快又便宜,明年试产

IT之家 浏览 1681

"巴铁"越打越猛阿富汗塔利班致电北京 中方斩钉截铁

健身狂人 浏览 88854

实拍斯巴鲁PERFORMANCE-B STI概念车:传奇随时可以复活,无奈量产成本太高

驾仕派 浏览 2563

LG AI Research发布K-EXAONE:万亿参数模型挑战全球AI格局

科技行者 浏览 1651

2026年量产 特斯拉Cybercab将于进博会首发

车质网 浏览 2643

美国要“收回”阿富汗空军基地 阿政府断然拒绝

环球网资讯 浏览 3529

泰柬冲突柬方70人死伤 泰国近20万人住进避难中心

财联社 浏览 2191

以色列对胡塞开展投弹量最大一次空袭

环球网资讯 浏览 3252

你觉得美,可能是大脑在偷偷节能|光锥读论文

未来光锥 浏览 2187

美媒:美军已向特朗普提交对委内瑞拉动武方案

环球网资讯 浏览 2365
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1