关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4068人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“双11”本地之战|淘宝便利店剑指美团腹地 电商巨头激战线下“最后一公里”

北京商报 浏览 4002

特朗普:俄乌接近达成协议 就顿巴斯问题尚未达成一致

红星新闻 浏览 24731

卫衣+百褶裙,初秋最韩系穿搭,又美又撩人!

Yuki女人故事 浏览 3972

周迅线下被偶遇,身材娇小鼻子宽大老气

翰飞观事 浏览 3028

新华社用3点评价李亚鹏:默守公益16年,给社会带来温度和感动

素素娱乐 浏览 3051

TA:热刺想要加拉格尔已近三年,如今才终于签下他

懂球帝 浏览 3053

重磅 | 2025中国消费年度智能创新名录揭晓:揭开消费增长的“虚与实”

第一财经商业数据中心 浏览 2986

美股半导体板块,集体下跌

第一财经资讯 浏览 3033

路易斯-迪亚斯导致阿什拉夫受伤,摩洛哥记者:你是个罪犯

懂球帝 浏览 4069

台湾一古宅所有正房大门都向着大陆 原因让人动容

都市快报橙柿互动 浏览 9964

伊朗外长抵俄谈美伊局势 将提交结束战争谈判报告

极目新闻 浏览 1058

《赴山海》:一集至少两个漏洞

流云天下 浏览 5021

消失在官方记录中的定制传奇:法拉利FX

老爷车 浏览 4000

冬季穿搭越简单越好看!衣服不多买、搭配彩色围巾,真的耐看

静儿时尚达人 浏览 3013

《用武之地》票房崩塌:这块金字招牌算砸了

靠谱电影君 浏览 3296

收藏=会了?你可能确诊“电子仓鼠症”

时尚COSMO 浏览 3851

中国“十五五”:未来五年,世界剧变!

宋鸿兵 浏览 4130

告别卡粉斑驳!保姆级遮瑕教程,手把手教你黑眼圈痘印全隐形

Yuki女人故事 浏览 3040

OptiScaler发测试版:抢跑AMD为Vulkan游戏开启FSR 4

IT之家 浏览 2583

澎湃读报丨央媒刊文追忆杨振宁先生:心系家国,功在世界

澎湃新闻 浏览 4052

唐山银行持续为股东及关联方“输血”,去年关联贷款不良率比全行平均水平高6倍多

华夏时报 浏览 196
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1