DeepSeek一体机值不值得入手?90后清华学子如何打造?

2025-10-22 10:35:35 作者:Vali编辑部

搭载DeepSeek模型的一体机最近在市场引发热议,价格直接下探至10万元级别。这并非是压缩版的量化模型,而是671B参数、FP8精度的原版DeepSeek。有人可能会好奇,这种机型在推理速度上是否能和官方版本抗衡?答案是肯定的,甚至表现更优。

我们通过一个汉字结构题来直观感受效果:左边是木字旁,右边是乞字,这个字是什么?只需回答字即可。从视频对比可以看出,一体机在回答准确性的同时,速度明显快于官网版本,粗略估算接近22 tokens/s的推理效率。

这款产品由北京行云集成电路推出,命名为褐蚁HY90,售价定为14.9万元。这家企业本身就有不少亮点,尤其是创始人季宇的背景更是引人注目。这位清华90后博士曾是华为"天才少年",并获得计算机学会CCF优博奖。

在实际应用中,褐蚁HY90展现出强大性能。我们测试了AIME 2025数学题,"Find the sum of all integer bases b>9 for which 17b is a divisor of 97b"。系统在20+ tokens/s的速度下给出正确答案70。面对类似"9.9和9.11哪个大"、"Strawberry里面有几个'r'"等迷惑性问题,也保持稳定输出。

除了DeepSeek,我们还在设备上体验了类似Deep Research的功能。无论是数学推理还是日常问答,系统都展现出流畅的处理能力。相比以往搭载Q4量化版本的一体机动辄200万元的成本,褐蚁HY90在保持速度的同时,将价格压缩了近十倍。

要实现这样的性能突破,需要解决传统方案的瓶颈。GPU方案因显存限制需要多张A100显卡,成本突破百万;CPU方案则受限于内存带宽,大模型推理时频繁加载参数导致"内存墙"问题。行云通过双路AMD 9005系列CPU搭配中高端消费级GPU的异构架构,既解决算力不足又降低硬件成本。

自主研发的推理引擎框架通过算法优化和任务调度,显著提升token生成速度。在FP8精度下,Decode阶段速度稳定在20TPS以上,128K上下文仍保持15TPS;Prefill阶段在16K上下文内首字延迟控制在80秒以内。这种高效性能特别适合需要连续生成大量token的场景。

团队还精准平衡计算能力与内存带宽,支持满血FP8精度的R1/V3模型,并预留扩展空间,未来可支持1.5T参数量的模型。通过参数压缩技术,Decode速度提升至28TPS(1K上下文),满足不同场景对速度与精度的灵活需求。

褐蚁一体机的出现改变了行业格局。此前运行满血671B模型需百万级设备,而低配方案仍需20-40万元。行云通过技术整合,将最高质量的模型体验带入10万元价位,为中小团队提供低门槛、高扩展性的AI部署方案。

这种技术突破不仅实现"高性能+低成本"的平衡,更推动大模型在智能客服、数据分析等场景的普惠应用。从产品到团队,行云都展现出专业实力。

创始人季宇本科毕业于清华物理系,后转向计算机体系结构方向获得博士学位。曾作为共同第一作者在《自然》发表论文,并获CCF优博奖。2023年8月成立行云前,曾在华为海思昇腾芯片团队负责编译器项目,入选"华为天才少年"。

CTO余洪敏拥有深厚学术背景和行业经验,曾担任百度昆仑芯、华为海思车载昇腾芯片等多款芯片负责人。长期领导100人以上研发团队,主导10余款芯片流片量产,推动先进工艺数据中心芯片架构设计及大规模商用部署。

去年11月,行云集成电路获得智谱AI、峰瑞资本、嘉御资本等明星资本投资。从产品到团队再到市场,这家公司展现出完整布局。作为成立仅两年的企业,能够实现一体机圈子里的"高性能+低成本",说明"中国初创"的含金量正在持续提升。