关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4066人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

陈都灵化妆小憩,网友“明星诉苦,无法共情”

人间烟火记事本 浏览 7

特斯拉涉嫌虚假宣传驾驶辅助,或被禁售30天

汽车公社 浏览 3329

现场:马竞绝杀国米6连胜!甘当替补的格子同样出色

体坛周报 浏览 3752

一加中国区总裁李杰:有的手机宣传边框存在“测算猫腻”

IT之家 浏览 4201

巨星传奇想摆脱“周杰伦依赖”

北京商报 浏览 3910

铁威马推出雷电5移动固态硬盘盒D1 SSD Pro

IT之家 浏览 3552

固态电池量产提速!超千万新能源车主,竟成被割的 “老韭菜”?

数字财经智库 浏览 4834

李白放弃回国嫁给撒贝宁,人生中最正确的决定

可乐谈情感 浏览 3459

全球股市最强风口,彻底拦不住了?

财经锐眼 浏览 2945

记者谈马宁连出三红:密集出牌虽彰显权威,却也容易激化矛盾

懂球帝 浏览 4395

媒体:日本挖到"稀土"想刺探中方反应 中方回一句单句

新民周刊 浏览 5372

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

LinkFashion 浏览 2564

网友曝姚晨新欢是侯雯元!二人交集被扒

萌神木木 浏览 2116

21岁韩乒一姐状态下滑?混双+女单皆不敌33岁老将 韩媒:极易崩盘

颜小白的篮球梦 浏览 4248

石油巨头裹足不前的心理阴影:委内瑞拉与美国的百年石油恩怨

澎湃新闻 浏览 3148

这才是打开秋季的穿衣方式!衣服不贪多、搭配得体,养眼舒适

静儿时尚达人 浏览 6103

三幅字画涉刑被拍卖 其中徐悲鸿"奔马图"起拍价4762万

极目新闻 浏览 9857

绿军逆转险胜魔术双方6人20+对攻 布朗27分班凯罗28+6

醉卧浮生 浏览 3867

MSC咨询合伙人金霞:可持续发展+AI,重构商业增长范式

南方都市报 浏览 3970

买10件退9件?到底怎么买红衣服才能不踩雷

黎贝卡的异想世界 浏览 2995

高市早苗当选首相的"助攻手" 重点提携了"汉奸"石平

极目新闻 浏览 9163
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1