DeepSeek算力团队做到了什么?大模型成本,究竟该怎么看?

2025-10-19 09:00:39 作者:Vali编辑部

当大模型训练遇上算力瓶颈,传统芯片架构的短板逐渐显现。以Transformer架构为代表的AI模型,其参数量和计算量呈指数级增长,而现有GPGPU芯片在应对这种变化时,往往陷入内存带宽不足、计算精度不匹配、集群扩展困难等多重困境。

这种困境并非偶然。从技术本质看,通用图形处理器(GPGPU)的设计初衷是兼顾图形渲染与通用计算,其共享内存架构在处理大模型时,容易出现计算单元争抢内存资源的现象。这就像高速公路上的车辆拥堵,每辆车都需要等待前面的车辆通过,导致整体通行效率下降。

针对这些问题,国内外多个团队都在探索新的解决方案。其中,玉盘团队提出的SRDA架构,从硬件设计到软件生态,都展现出独特的创新思路。这种架构在数据流处理、内存架构优化、网络通信整合等方面,都实现了突破性进展。

数据流处理是SRDA架构的核心设计思想。不同于传统芯片采用的指令流水线模式,SRDA通过可重构数据流设计,让计算单元能够根据实际需求动态调整数据传输路径。这种设计方式类似于高速公路的智能导航系统,能够根据实时路况自动选择最优路线,大幅减少数据搬运的等待时间。

在内存架构方面,SRDA采用3D堆叠工艺,为每个计算单元配备专属的高带宽内存。这种设计解决了传统共享内存架构下计算单元争抢内存资源的问题。就像为每辆车都配备独立的加油口,避免了排队等待的拥堵现象。这种架构特别适合处理注意力机制等对内存带宽要求较高的场景。

网络通信整合是SRDA的另一大亮点。传统架构下,计算单元需要通过PCIe总线进行数据传输,这种设计在大模型训练时容易造成带宽竞争。SRDA通过片上集成独立通信引擎,实现了计算与通信的解耦。这种设计类似于在每辆车都配备专用通信通道,让数据传输更加高效流畅。

在实际应用中,SRDA架构展现出显著优势。以Transformer架构为代表的大模型,其训练和推理过程对算力利用率要求极高。SRDA通过优化数据流路径、提升内存带宽、降低通信延迟等手段,有效提升了计算单元的利用率。这种优化对于70%算力消耗集中在R1、Qwen等开源模型的场景尤为重要。

从技术演进角度看,SRDA架构的出现具有里程碑意义。相比传统GPGPU架构,它更专注于解决大模型训练中的具体问题。这种针对性设计,让芯片性能与实际应用场景需求高度匹配。特别是在3D-DRAM颗粒成熟、大模型需求趋于收敛的2025年,SRDA架构的推出恰逢其时。

目前,国内外已有昇腾达芬奇、Groq LPU、SambaNova RDA等计算架构出现。但这些架构大多针对传统小模型场景,难以满足大模型训练的特殊需求。相比之下,SRDA架构在数据流处理、内存架构优化、网络通信整合等方面的优势,使其在大模型场景下展现出更强的适应性。

从长远来看,SRDA架构的出现预示着AI算力发展的一个重要方向。随着大模型技术的成熟,专用计算架构将逐步取代通用芯片,成为主流选择。这种转变不仅体现在硬件设计层面,更意味着整个AI计算生态的重构。

玉盘团队在近期公布的demo中,展示了SRDA架构在实际场景中的表现。这些性能数据将进一步验证其在解决大模型算力瓶颈方面的有效性。随着更多技术细节的公开,SRDA架构有望成为未来AI算力发展的新标杆。