DeepSeek一体机值不值得入手？90后清华学子如何打造？

2025-10-22 10:35:35 作者：Vali编辑部

搭载DeepSeek模型的一体机最近在市场引发热议，价格直接下探至10万元级别。这并非是压缩版的量化模型，而是671B参数、FP8精度的原版DeepSeek。有人可能会好奇，这种机型在推理速度上是否能和官方版本抗衡？答案是肯定的，甚至表现更优。

我们通过一个汉字结构题来直观感受效果：左边是木字旁，右边是乞字，这个字是什么？只需回答字即可。从视频对比可以看出，一体机在回答准确性的同时，速度明显快于官网版本，粗略估算接近22 tokens/s的推理效率。

这款产品由北京行云集成电路推出，命名为褐蚁HY90，售价定为14.9万元。这家企业本身就有不少亮点，尤其是创始人季宇的背景更是引人注目。这位清华90后博士曾是华为"天才少年"，并获得计算机学会CCF优博奖。

在实际应用中，褐蚁HY90展现出强大性能。我们测试了AIME 2025数学题，"Find the sum of all integer bases b>9 for which 17b is a divisor of 97b"。系统在20+ tokens/s的速度下给出正确答案70。面对类似"9.9和9.11哪个大"、"Strawberry里面有几个'r'"等迷惑性问题，也保持稳定输出。

除了DeepSeek，我们还在设备上体验了类似Deep Research的功能。无论是数学推理还是日常问答，系统都展现出流畅的处理能力。相比以往搭载Q4量化版本的一体机动辄200万元的成本，褐蚁HY90在保持速度的同时，将价格压缩了近十倍。

要实现这样的性能突破，需要解决传统方案的瓶颈。GPU方案因显存限制需要多张A100显卡，成本突破百万；CPU方案则受限于内存带宽，大模型推理时频繁加载参数导致"内存墙"问题。行云通过双路AMD 9005系列CPU搭配中高端消费级GPU的异构架构，既解决算力不足又降低硬件成本。

自主研发的推理引擎框架通过算法优化和任务调度，显著提升token生成速度。在FP8精度下，Decode阶段速度稳定在20TPS以上，128K上下文仍保持15TPS；Prefill阶段在16K上下文内首字延迟控制在80秒以内。这种高效性能特别适合需要连续生成大量token的场景。

团队还精准平衡计算能力与内存带宽，支持满血FP8精度的R1/V3模型，并预留扩展空间，未来可支持1.5T参数量的模型。通过参数压缩技术，Decode速度提升至28TPS（1K上下文），满足不同场景对速度与精度的灵活需求。

褐蚁一体机的出现改变了行业格局。此前运行满血671B模型需百万级设备，而低配方案仍需20-40万元。行云通过技术整合，将最高质量的模型体验带入10万元价位，为中小团队提供低门槛、高扩展性的AI部署方案。

这种技术突破不仅实现"高性能+低成本"的平衡，更推动大模型在智能客服、数据分析等场景的普惠应用。从产品到团队，行云都展现出专业实力。

创始人季宇本科毕业于清华物理系，后转向计算机体系结构方向获得博士学位。曾作为共同第一作者在《自然》发表论文，并获CCF优博奖。2023年8月成立行云前，曾在华为海思昇腾芯片团队负责编译器项目，入选"华为天才少年"。

CTO余洪敏拥有深厚学术背景和行业经验，曾担任百度昆仑芯、华为海思车载昇腾芯片等多款芯片负责人。长期领导100人以上研发团队，主导10余款芯片流片量产，推动先进工艺数据中心芯片架构设计及大规模商用部署。

去年11月，行云集成电路获得智谱AI、峰瑞资本、嘉御资本等明星资本投资。从产品到团队再到市场，这家公司展现出完整布局。作为成立仅两年的企业，能够实现一体机圈子里的"高性能+低成本"，说明"中国初创"的含金量正在持续提升。