算力竞赛,散户也能参与? 40B模型,能带来哪些新玩法?
全球网友用闲置显卡组团训练大模型。40B大模型、20万亿token,创下了互联网上最大规模的预训练新纪录!去中心化AI的反攻,正式开始。OpenAI等巨头的算力霸权,这次真要凉了?
互联网上最大规模的预训练来了!
Nous Research宣布正式推出Psyche网络(Psyche Network),通过去中心化方式革新人工智能(AI)训练。
Psyche网络利用区块链技术,汇聚全球计算资源,成功启动了40B参数大语言模型Consilience的预训练任务,总计20万亿token,创下了迄今为止互联网上最大规模的预训练纪录。
大语言模型Consilience采用DeepSeek V3的多头潜在注意力(MLA)架构,相较于Llama使用的GQA架构更具表达力,同时通过优化QKV投影矩阵减少计算开销。
三种注意力的对比
Psyche利用全球闲置的计算资源(如4090、A100和H100等消费级GPU),大幅降低训练成本。
通过并行实验,Psyche鼓励开源社区提出新的模型架构和训练方法,未来可能催生更多创新。
Psyche网络技术原理图,核心在于DisTrO优化器与Solana区块链
过去,人们总觉得「AI模型的去中心化训练」不过是一种幻想,尤其在那些超越了爱好者规模的语言模型面前更是如此。
但几项关键技术突破——尤其是并行化和强化学习——正在逐渐打破这种局限,让除了OpenAI、Anthropic这类大公司之外的小型团队也开始进入这个赛道。
现在看来,聪明的算法可以弥补基础设施的不足,而像Nous Research这样的去中心化参与者正希望抓住这个机会。
砸碎算力墙
近年来,AI模型的训练逐渐被大型科技公司垄断。
训练一个前沿模型需要数千个高性能GPU和超高带宽的集群,这使得普通研究者或小型团队几乎无法参与。
这种集中化趋势不仅限制了创新,还可能导致少数科技去投垄断甚至控制AI模型。
集中式AI,可能会少数科技巨头「比你更了解你自己」。
Hermes系列中规模最大的模型——Hermes 3 405B,是在基础的Llama 3.1模型上进行微调完成的。
整个训练过程动用了128块H100 GPU,耗时约16小时(总计约2,086GPU小时)。
从成本上看其实并不离谱——目前租用8块H100的计算节点每小时大约在16到24美元之间,因此一次完整训练的开销大约在5,000美元左右。
作为Nous Research Hermes系列的最新迭代,Hermes 3 405B自Llama-3.1 405B的全参数微调模型,
但如果我们想更进一步,想得更大呢?
毕竟,Hermes目前还是依赖Llama作为基础模型。
如果我们不再依赖已有的模型,而是从零开始构建自己的基础模型,那我们就需要更庞大的“船”了。
要以更大规模、低成本地实现类似的训练成果,确实面临不少挑战,尤其是当训练从集中化的GPU集群转向基于互联网的去中心化网络时。
Nous Research提出了Psyche网络的解决方案:通过去中心化的方式,让全球的计算资源参与AI模型训练,降低进入门槛,推动AI发展的民主化。
Nous Research的Psyche网络成功实现了去中心化的AI训练,开创了一个全新的模式。
Psyche不仅降低了AI开发的门槛,还推动了全球协作和创新。
Consilience模型的预训练只是起点,未来Psyche网络有望成为AI民主化的重要基石,为开源社区和小型团队提供与科技巨头抗衡的机会。
去中心化训练的突破
传统集中式训练模式存在明显短板,主要体现在两个方面:其一是硬件资源的集中化导致训练成本居高不下,其二是数据集的封闭性限制了模型的泛化能力。Psyche网络通过分布式计算架构,将全球闲置算力转化为训练资源,这种模式打破了传统算力垄断,使更多开发者能够参与大模型训练。
在实际应用中,Psyche网络展现出独特优势。其一,计算资源的分散性降低了单点故障风险,即便某地网络中断,其他节点仍可继续工作。其二,节点间的协作机制使得训练过程具备更强的灵活性,能够根据实际需求动态调整资源分配。其三,去中心化架构天然具备扩展性,未来可容纳更多参与者加入,形成良性循环。
区块链技术的融合
Psyche网络的核心创新在于将区块链技术深度嵌入训练流程。这种融合体现在三个层面:首先,区块链作为分布式账本,确保了训练数据的透明性和可追溯性,防止数据篡改;其次,智能合约机制实现了资源分配的自动化,提高了效率;最后,基于区块链的激励体系,使参与者能够获得稳定回报,促进算力资源的持续供给。
这种技术融合带来的实际效果显著。例如,在训练Consilience模型时,全球各地的闲置GPU通过区块链网络协同工作,既降低了单个节点的负载压力,又避免了传统集中式训练中可能出现的资源浪费。同时,智能合约自动分配奖励,确保了参与者权益,形成了可持续的算力生态。
DisTrO技术的创新
针对传统训练模式中的带宽瓶颈,Psyche网络引入了DisTrO(分布式优化)技术。这项技术通过优化数据传输流程,显著提升了训练效率。具体而言,DisTrO采用分层数据传输机制,将大规模数据集分割为多个子集,分阶段进行传输,有效降低了网络负载。
在实际测试中,DisTrO技术展现出明显优势。相比传统训练方式,其数据传输效率提升了约35%,同时保持了模型训练的准确性。这种创新使得即使在带宽受限的环境下,也能实现高效的大规模模型训练,为去中心化训练提供了技术保障。
强化学习的实践
Psyche网络的另一个创新点在于将强化学习(RL)应用于训练过程。这种模式下,每个节点通过与环境的互动不断优化模型性能,形成了动态调整机制。相比传统监督学习,强化学习能够更灵活地应对训练过程中的变化。
在实际应用中,强化学习带来的好处尤为明显。例如,在训练推理能力时,节点可以根据实时反馈调整策略,使模型更快掌握领域知识。同时,这种机制也增强了系统的适应性,使Psyche网络能够应对不同类型的训练任务,拓展了应用场景。
区块链:回归初心
在常常被斥为「过度炒作又频频令人失望」的区块链生态中,能看到真正的创新成果,确实令人欣慰——简直让人「冷漠的灵魂也重新燃起了热情」。
这一切,真的令人感到振奋。
Nous并不是一开始就拥抱区块链技术的,相反,他们几乎是被「拖着、踢着、喊着」走上了这条路——
但原因很简单:区块链确实是解决他们问题最合适的工具。
他们需要一种方式,不论对方来自哪里,都能吸引计算资源与人才并进行公平支付;区块链,在这一点上表现得无比出色。
他们需要一种手段,能够协调并扩展大规模训练任务;而协调与扩展,正是区块链技术的「第二天性」。
他们还需要一种不受停电、封禁、宕机等影响的托管机制,能让项目「打不死」、无法被关闭;在这方面,区块链(这次不再是讽刺)也的确提供了最可靠的保障。
而最值得欣慰的是:这一次,人们选择区块链,不是出于投机炒作,而是出于对实际问题的认真思考与真实需求的回应。
如果Psyche成功了,它不仅将证明去中心化训练是切实可行的,更是回归初心:为取代的集中化计算,提供了强有力的工具。