DeepSeek算力团队做到了什么？大模型成本，究竟该怎么看？

2025-10-19 09:00:39 作者：Vali编辑部

当大模型训练遇上算力瓶颈，传统芯片架构的短板逐渐显现。以Transformer架构为代表的AI模型，其参数量和计算量呈指数级增长，而现有GPGPU芯片在应对这种变化时，往往陷入内存带宽不足、计算精度不匹配、集群扩展困难等多重困境。

这种困境并非偶然。从技术本质看，通用图形处理器（GPGPU）的设计初衷是兼顾图形渲染与通用计算，其共享内存架构在处理大模型时，容易出现计算单元争抢内存资源的现象。这就像高速公路上的车辆拥堵，每辆车都需要等待前面的车辆通过，导致整体通行效率下降。

针对这些问题，国内外多个团队都在探索新的解决方案。其中，玉盘团队提出的SRDA架构，从硬件设计到软件生态，都展现出独特的创新思路。这种架构在数据流处理、内存架构优化、网络通信整合等方面，都实现了突破性进展。

数据流处理是SRDA架构的核心设计思想。不同于传统芯片采用的指令流水线模式，SRDA通过可重构数据流设计，让计算单元能够根据实际需求动态调整数据传输路径。这种设计方式类似于高速公路的智能导航系统，能够根据实时路况自动选择最优路线，大幅减少数据搬运的等待时间。

在内存架构方面，SRDA采用3D堆叠工艺，为每个计算单元配备专属的高带宽内存。这种设计解决了传统共享内存架构下计算单元争抢内存资源的问题。就像为每辆车都配备独立的加油口，避免了排队等待的拥堵现象。这种架构特别适合处理注意力机制等对内存带宽要求较高的场景。

网络通信整合是SRDA的另一大亮点。传统架构下，计算单元需要通过PCIe总线进行数据传输，这种设计在大模型训练时容易造成带宽竞争。SRDA通过片上集成独立通信引擎，实现了计算与通信的解耦。这种设计类似于在每辆车都配备专用通信通道，让数据传输更加高效流畅。

在实际应用中，SRDA架构展现出显著优势。以Transformer架构为代表的大模型，其训练和推理过程对算力利用率要求极高。SRDA通过优化数据流路径、提升内存带宽、降低通信延迟等手段，有效提升了计算单元的利用率。这种优化对于70%算力消耗集中在R1、Qwen等开源模型的场景尤为重要。

从技术演进角度看，SRDA架构的出现具有里程碑意义。相比传统GPGPU架构，它更专注于解决大模型训练中的具体问题。这种针对性设计，让芯片性能与实际应用场景需求高度匹配。特别是在3D-DRAM颗粒成熟、大模型需求趋于收敛的2025年，SRDA架构的推出恰逢其时。

目前，国内外已有昇腾达芬奇、Groq LPU、SambaNova RDA等计算架构出现。但这些架构大多针对传统小模型场景，难以满足大模型训练的特殊需求。相比之下，SRDA架构在数据流处理、内存架构优化、网络通信整合等方面的优势，使其在大模型场景下展现出更强的适应性。

从长远来看，SRDA架构的出现预示着AI算力发展的一个重要方向。随着大模型技术的成熟，专用计算架构将逐步取代通用芯片，成为主流选择。这种转变不仅体现在硬件设计层面，更意味着整个AI计算生态的重构。

玉盘团队在近期公布的demo中，展示了SRDA架构在实际场景中的表现。这些性能数据将进一步验证其在解决大模型算力瓶颈方面的有效性。随着更多技术细节的公开，SRDA架构有望成为未来AI算力发展的新标杆。