关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4070人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

香港科技大学突破文本理解难题:让AI模型内部"自我改造"

科技行者 浏览 3055

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

伊周潮流 浏览 4050

猫头鹰联手Prusa推出经典棕色、米色3D打印PLA耗材

IT之家 浏览 3582

2月19日正式发布 全新奥迪RS 5预告图曝光

车质网 浏览 2889

卖车卖到手软 MG4 5月销量突破15000台

网易汽车 浏览 16

又爆了一部新片,他今年太火了

独立鱼 浏览 4649

AI算力需求疯狂,微软“新云”交易额超600亿美元

华尔街见闻官方 浏览 3878

主销售价45万起,极氪8X路试谍照曝光

网易汽车 浏览 3626

美方人士:中国明天就能瘫痪美国经济 而美国无能为力

澎湃新闻 浏览 4233

高市早苗曾叫嚣台湾有事日本必入

极目新闻 浏览 4027

达伦-本特:切尔西应该签回弟媳,他看起来依然很出色

懂球帝 浏览 3471

中国代表:日本必须深刻反省历史罪责停止挑衅越线

新华社 浏览 3521

《浪姐7》4大“赢家”,出道多年不及参加一档综艺,选择真重要

娱乐圈笔娱君 浏览 1300

檀健次干什么了?4天两波瓜太抓马!

阳春三月天晴 浏览 3134

普京酝酿的“重大行动”,会给中国带来机遇?

浏览 27296

泽连斯基:俄武器含美中英德日韩零部件

澎湃新闻 浏览 4281

秦雯自曝袭警被抓后,让王家卫捞人找自己?

芊手若 浏览 3926

男女情爱奇招尽出,碎碎念伍迪老爷再上阵!

幕味儿 浏览 3598

马筱梅吐槽老公,称嫁到大陆鲜花都是粉丝送的,汪小菲只送过一次

扒虾侃娱 浏览 4655

墙倒众人推!王家卫这次惹众怒了

小娱乐悠悠 浏览 3934

同样是悼念亡妻,把具俊晔和辛柏青放一起比较,差别怎么这么大!

娱乐圈笔娱君 浏览 4068
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1