Mariana能让你的显卡发挥多少潜力?突破显存瓶颈,体验会怎样?

2025-10-12 10:00:21 作者:Vali编辑部

大语言模型(LLM)技术在各行各业快速落地的过程中,显存成本与推理效率之间的矛盾愈发突出。当模型参数量突破千亿级别,传统显存架构的瓶颈逐渐显现。以键值缓存(KV Cache)为例,其存储需求随输入token数量呈线性增长,每新增一个token就需要额外分配显存空间。这种存储压力在并发推理场景下尤为明显,成为制约大模型规模化应用的关键因素。如何在有限的显存资源中实现更高效的存储扩展,已成为当前AI领域亟需突破的技术难题。

面对这一挑战,行业专家们尝试了多种技术路线。Nvidia推出的Dynamo项目采用多级存储架构,将热数据存放在显存、温数据使用主机内存、冷数据则存储在SSD或对象存储系统中。这种分层管理方案虽然能缓解存储压力,但数据迁移过程中的延迟开销难以彻底消除。微软的LMCache系统则更注重与现有推理框架的兼容性,但其分布式存储能力相对薄弱,难以满足大规模并发需求。阿里巴巴提出的远端存储方案虽然具备良好的扩展性,却在读写性能上难以达到LLM推理业务对低延迟的严苛要求。

在这些方案中,CXL(Compute Express Link)技术展现出独特优势。这种新型高速互联技术通过硬件级缓存一致性设计,能够有效突破传统内存架构的性能限制。不过,目前针对CXL在LLM推理场景中的应用研究仍显不足,如何将成熟的软件栈迁移至CXL硬件平台,成为业界关注的焦点。

中兴通讯联合华东师范大学研发的Mariana技术,为这一难题提供了创新性解决方案。这项名为《Mariana: Exploring Native SkipList Index Design for Disaggregated Memory》的研究成果发表在IEEE TPDS期刊上,其核心价值在于构建了一个面向计算-内存分离架构的高性能分布式KV索引系统。该技术通过三个关键创新,成功解决了高并发场景下的存储性能瓶颈。

在并发控制方面,Mariana采用细粒度锁机制,将锁粒度从节点级细化到条目级。每个叶子节点预留多个槽位和对应的闩锁,写入操作时客户端通过RDMA_CAS竞争空闲槽位的锁,实现同一节点不同槽位的并发写入。这种设计显著降低了写密集型场景下的竞争压力,同时提升了吞吐量和响应速度。

数据布局优化是Mariana的另一大亮点。该方案采用分离式存储策略,将Key和Value分别存放在不同内存块中,连续键数组可一次性加载至SIMD寄存器,大幅提升了查找效率。同时优化读写操作序列,减少RDMA指令次数,有效降低了数据访问延迟。

在缓存策略方面,Mariana引入轻量级热点缓存机制,通过Count-Min Sketch算法实时识别热点数据,维护按热度排序的链表结构。该机制使计算节点能够快速缓存热点L1节点的最小键及存储地址,显著提升存储系统的读取性能。实验数据显示,该方案在读写吞吐和延迟性能方面均优于现有分布式KV存储系统。

Mariana的技术优势在实际应用中得到充分验证。其解耦内存架构支持数据分布在远端CPU DRAM或PMem/SSD组成的共享内存池中,理论上可实现无限扩展的存储空间。在高吞吐场景下,通过硬件加速和智能缓存机制,显著减少KV Cache查找的计算和网络开销。其优化后的数据路径(本地缓存→RDMA→SIMD搜索)专为低延迟设计,满足推理流水线的严苛要求。

从测试结果看,基于Mariana扩展的多级KV Cache存储方案,在预加载阶段展现出显著优势。当关闭KV Cache时,显存空间仅能容纳50%的KV数据,而开启Mariana多级存储后,推理性能得到明显提升。这种技术突破不仅解决了当前存储方案的性能瓶颈,更为大模型推理提供了新的优化路径。

Mariana的创新价值在于其与底层硬件的解耦设计。核心算法无需重新设计即可平滑迁移至CXL硬件生态,只需将远程访问API替换为CXL.mem操作,便能充分发挥CXL的低延迟和一致性优势。这种灵活性使其成为构建下一代大模型推理基础设施的坚实基础。

从优化细粒度并发控制到适配CXL新生态,Mariana的突破不仅是一次技术迭代,更重新定义了大模型推理的存储逻辑。当显存不再是不可逾越的壁垒,当分布式存储能在高吞吐与低延迟间找到完美平衡点,大模型的规模化应用将迎来真正普惠的变革。或许在不久的将来,随着CXL技术的成熟和Mariana方案的落地,百亿、千亿参数模型将能在普通硬件上高效运行,让AI的算力红利真正渗透到每一个需要它的场景中。