大模型上下文,现在还能突破吗?思维链技术,未来会去哪里?
大模型的上下文限制,正在被MIT团队找到新的突破口。
这项研究将传统线性推理方式彻底颠覆,通过递归子任务结构实现长程推理,让模型在有限输出窗口内具备无限扩展能力。这种突破性设计让AI在处理复杂任务时不再受制于传统架构。
面对现实应用场景中需要连续推理的复杂需求,现有大模型的上下文窗口限制成为阻碍。特别是当模型需要调用外部工具、处理多步骤任务时,这个瓶颈往往成为致命短板。传统方案要么分拆任务,要么压缩信息,都难以保持完整推理链条。
MIT团队在研究中发现,人类推理过程并非简单的线性流程。就像编程时不需要记住每个函数的实现细节,我们更关注当前光标位置、已完成的函数输入输出以及待办事项。这种潜意识的信息过滤机制,正是TIM架构的核心设计灵感。
将推理轨迹转化为递归子任务树,是TIM架构的最大创新。这种结构让模型能够自动分解复杂问题,直到达到可以一步完成的叶节点任务。配合子任务剪枝机制,模型在完成子任务后会自动清理执行细节,只保留结论。这种设计有效减少了计算资源消耗。
实验数据显示,这种机制在AIME 2024数学竞赛任务中实现了64.1%的剪枝率,显著降低了KV缓存使用量。更关键的是,TIM架构采用结构化生成方式,将整个推理过程编码为JSON字典,通过约束解码确保输出格式正确性。
这种设计让模型在单次推理中完成多次工具调用,避免了传统方法中反复提交消息列表的开销。TIMRUN引擎的出现,解决了TIM架构在部署中的关键挑战——如何在有限的GPU内存和位置编码范围内实现"无限"推理。
TIMRUN的核心突破在于动态内存管理和位置编码重用。当子任务被剪枝后,系统不仅回收GPU内存页,还重新分配位置编码。被剪枝的token占用的位置会被后续token重新使用,这种机制让模型在固定输出窗口内持续生成新内容。
在工具调用方面,TIMRUN直接在运行时内部发起调用,而不是将参数发送回客户端。当模型输出"tool_result:"时,系统会自动提取参数、调用外部工具,并将响应直接添加到推理序列中。这种设计将传统多智能体系统的O(n²)成本降低到O(n)。
实验数据显示,即使进行30多次工具调用,TIMRUN仍能保持稳定的吞吐量。这种效率优势在实际应用中尤为明显,特别是在需要连续推理的复杂场景下。
在多个基准测试中,TIM架构展现出显著优势。MATH500数学推理任务中,TIM-8b模型达到69%准确率,AIME 2024任务中也取得46.7%成绩。值得注意的是,子任务剪枝不仅没有降低性能,在部分任务中反而提升表现,说明精简工作内存有助于模型聚焦关键信息。
在需要多跳推理和工具使用的研究型任务中,TIM在Datacommons QA基准测试中达到67.9%准确率,与使用4000多token任务提示的Thread方法相当,但只需简洁的系统消息和工具描述。在BrowseComp深度研究任务中,TIM-large的成功率7.8%,远超GPT-4o的1.9%。
效率方面,TIMRUN在批量大小为30时,吞吐量比基线系统SGLang提升约20%。随着工具调用次数增加,SGLang吞吐量急剧下降,而TIMRUN保持稳定,这得益于其自动上下文管理机制。
这项研究为大模型推理开辟了新路径,让技术突破不再受限于传统架构。TIM和TIMRUN的组合,让推理这件事终于摆脱了窗口束缚。
论文地址:
https://www.valimart.net/