关闭广告

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

机器之心Pro4068人阅读

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

城区油耗2L级长安逸动/CS75 PLUS蓝鲸超擎抢订价7.99万起

网易汽车浏览 1152

牛弹琴：欧洲终于开骂了特朗普可能会气到咆哮

北京日报客户端浏览 7481

欧盟限制中国企业参与5G建设，商务部回应：坚决反对

时代周报浏览 2980

精彩推荐

“双11”本地之战|淘宝便利店剑指美团腹地电商巨头激战线下“最后一公里”

北京商报浏览 4002

特朗普：俄乌接近达成协议就顿巴斯问题尚未达成一致

红星新闻浏览 24731

卫衣+百褶裙，初秋最韩系穿搭，又美又撩人！

Yuki女人故事浏览 3972

周迅线下被偶遇，身材娇小鼻子宽大老气

翰飞观事浏览 3028

新华社用3点评价李亚鹏：默守公益16年，给社会带来温度和感动

素素娱乐浏览 3051

TA：热刺想要加拉格尔已近三年，如今才终于签下他

懂球帝浏览 3053

重磅 | 2025中国消费年度智能创新名录揭晓：揭开消费增长的“虚与实”

第一财经商业数据中心浏览 2986

美股半导体板块，集体下跌

第一财经资讯浏览 3033

路易斯-迪亚斯导致阿什拉夫受伤，摩洛哥记者：你是个罪犯

懂球帝浏览 4069

台湾一古宅所有正房大门都向着大陆原因让人动容

都市快报橙柿互动浏览 9964

伊朗外长抵俄谈美伊局势将提交结束战争谈判报告

极目新闻浏览 1058

《赴山海》：一集至少两个漏洞

流云天下浏览 5021

消失在官方记录中的定制传奇：法拉利FX

老爷车浏览 4000

冬季穿搭越简单越好看！衣服不多买、搭配彩色围巾，真的耐看

静儿时尚达人浏览 3013

《用武之地》票房崩塌：这块金字招牌算砸了

靠谱电影君浏览 3296

收藏=会了？你可能确诊“电子仓鼠症”

时尚COSMO 浏览 3851

中国“十五五”：未来五年，世界剧变！

宋鸿兵浏览 4130

告别卡粉斑驳！保姆级遮瑕教程，手把手教你黑眼圈痘印全隐形

Yuki女人故事浏览 3040

OptiScaler发测试版：抢跑AMD为Vulkan游戏开启FSR 4

IT之家浏览 2583

澎湃读报丨央媒刊文追忆杨振宁先生：心系家国，功在世界

澎湃新闻浏览 4052

唐山银行持续为股东及关联方“输血”，去年关联贷款不良率比全行平均水平高6倍多

华夏时报浏览 196

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1