Agent记忆技巧这么厉害?还能反超全文喂养,是怎么做到的?
最近发现一个挺有意思的事:现在市面上大部分评估AI代理的基准测试,都倾向于考核“单项技能”,而不是“综合任务”。比如你让AI点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就卡住了。
这种“偏科”现象并非我的主观感受。比如清华大学之前提出的AgentBench,把智能体的能力拆解成八大维度,比如理解人类意图、编码能力、逻辑推理、自主探索等等。这些能力单拎出来都非常重要,但它们本质上仍是一系列独立的“单项技能”,离能策划一场晚宴的项目管理大师还差得很远。
把AI从这些精心设计的“考场”拉回到真实的“打工人”办公室,就会发现完全是另一番景象。在真实的办公环境中,我们面对的任务往往是:
长周期:不是一蹴而就,可能持续几天甚至几周。
上下文依赖:今天做的决策,可能要基于上周的对话或某个文档里的信息。
多交互协调:你需要跟AI来回“拉扯”,逐步细化需求,它也得记住你每次的需求变更。
跨应用:一个任务可能需要Word写报告、Excel做分析、邮件发通知、日历排时间。
而目前市面上这些测试标准,完全无法映射这种真实世界的复杂性。因此,我们看到的众多AI代理,本质上还是“技术玩具”,而非“生产力工具”。
它们在短平快的任务上表现尚可,一旦投入到仿真真实打工人的工作流中,几乎立刻歇菜。
为了弥补现有评测体系的不足,微软与爱丁堡大学的研究人员携手推出了专门用于评估大型语言模型代理在“长周期、复杂办公应用工作流”中真实表现的综合性基准——OdysseyBench。
论文标题:Odysseybench: Evaluating Llm Agents On Long-Horizon Complex Office Application Workflows
论文链接:https://www.valimart.net/
OdysseyBench的理念是:将评测的重心从“原子任务”转向了“真实工作流”。
看下图所示对比,左侧的传统“原子任务”就像是一个孤立指令:“把这句话加到文档末尾”。
而右侧OdysseyBench所定义的“长周期任务”则高度模拟了现实:“请从一张合并了通知信息的图片中提取文本,按‘聚会’和‘会议’分类,分别整理成两个PDF,并存入不同的文件夹。整个过程中,不仅穿插了无关的‘闲聊’作为干扰,任务指令本身也是在几天内分批给出的。”
这,才是真·打工人日常啊!
OdysseyBench使用了Word、Excel、PDF、电子邮件和日历五大“打工人”搬砖应用,创作了两类任务:
OdysseyBench+(300个任务):来源于真实案例,但经过“魔改”,加入了长对话历史和上下文依赖。
OdysseyBench-Neo(302个任务:全新生成,复杂度更高,多样性更强!
每个任务都要求代理像个侦探,从持续数天的、夹杂着闲聊的对话中拼凑出线索,进行多步推理,并在多个应用间协调操作。如果不理解长周期历史,任务根本无法完成!
让我们来看一个例子,直观感受一下OdysseyBench的“险恶”之处:
任务的最终目标很简单:
“将提取的文本内容拆分,一部分存为party.pdf,另一部分存为meeting.pdf。”
在一个原子任务基准中,代理收到的就是这句直接的指令,而在OdysseyBench中,代理收到的却是这样一段跨越多天的对话历史:
Day 1, 09:00, 用户Bob:“你能把这张合并通知图片里的文本提取出来吗?”
Day 1, 09:01, 助手:“好的,我这就开始。”
Day 2, 10:30, 用户Bob:“我需要把这份报告发给客户,你能帮我整理一下吗?”
Day 3, 14:00, 用户Bob:“这份报告里有三个版本,我需要对比一下。”
Day 4, 09:00, 用户Bob:“最后确定下来,把结果发给我。”
这期间还穿插着“这个文件在哪儿?”“上次的会议纪要我找不到了”等日常对话。
代理需要从这些信息中提取关键点,完成任务。
研究团队采用了目前最顶尖LLM代理(包括GPT-4o、DeepSeek等多个先进模型)进行了测试:
首先,代理需要会的应用越多,表现就越差。如下表所示,当任务从单个应用增加到三个应用时,即便是最强的模型,成功率也近乎腰斩。
接着,关于上下文的发现是:并非越长、越多就越好!
过去我们习惯将所有对话历史一股脑地喂给模型,虽然其任务成功率最高,但钱包会哭。随着多位科学家对上下文工程重要性的不断验证,为了探寻高效且经济的记忆机制,研究团队设计了一组关键实验,测试代理如何调用过往对话记忆的效率最高:
长上下文:将完整、未经处理的全部对话历史作为上下文提供给AI。
原始对话片段检索:从对话中检索出与当前任务相关的单句或简短交流片段。
摘要区块检索:先将对话按逻辑分成连贯的“区块”,然后用另一个大语言模型对每个区块进行总结,形成一份份高度浓缩的“会议纪要”。
而实验结果,简直是意料之外,毕竟不是所有的数据都值得记住。结果就是:“摘要区块”策略大获全胜:
在难度更高的OdysseyBench-Neo数据集上,该策略的任务成功率高达56.29%,这不仅是对粗糙的“信息碎片”策略的压倒性胜利,甚至超越了看似提供了全部信息的“信息瀑布”基线(51.99%),而且其Token消耗量却不到后者的20%,真正实现了性能与效率的双赢。
论文还“贴心”地分析了代理目前打工中经常失败的几种常见情况:
1.文件找不到:对话里提到了文件名,结果代理没能提取出来去读取。
2.操作忘了做:用户让“分析数据再总结”,结果代理没分析,直接开始瞎写总结。
3.工具用错了:想生成PDF,但错误地使用了直接创建的工具,而不是先用Word编辑再转换。
4.计划混乱:需要先读PDF再写Word,结果它直接打开Word,然后问:“我要写啥来着?”
(看完这些“错误”,我只想问,到底谁说代理现在还不能打工,这些错误我也天天犯啊!)
今天之所以给大家介绍OdysseyBench,是因为其评测理念与我个人对AI代理未来发展的期望高度契合:
我们所真正期待的代理,并非当下流行、能执行越来越“难”的特定指令的“智能工具人”,而应是一个能够深刻理解用户意图、自主管理复杂项目、跨应用域为你创造价值的“智能伙伴”。
只有当代理真正具备这样的认知深度与广度,我们所描绘的、真正意义上的AI时代才能降临~