WAIC大模型凭什么这么特别?Transformer架构还能否突围?
在Transformer架构统治大模型领域八年之后,谷歌突然开始对自家技术路线动手。这并非偶然,而是AI领域正在经历一场深层次的架构革新。最近在WAIC世界人工智能大会上,这种变革趋势愈发明显,甚至国内企业比谷歌的调整更彻底。
一个引人注目的案例是视频中展示的灵巧机械手,它由一个3B参数的离线多模态大模型驱动。虽然模型规模不大,但部署在端侧设备后,其对话效果和响应速度几乎可以和云端运行的更大模型媲美。更令人惊讶的是,这个模型具备「看、听、想」等多模态能力,能够完成复杂交互任务。
这个突破性的技术来源于国内AI企业RockAI自主研发的Yan 2.0 Preview架构。与传统Transformer架构不同,Yan架构通过降低计算复杂度,在算力有限的设备上实现了离线运行。这种技术突破让树莓派等低算力设备也能承载大模型运行,打破了传统架构对硬件性能的依赖。
更值得关注的是,Yan架构赋予模型独特的「原生记忆力」。与市面上常见的「云端大模型的小参数版本」不同,这种模型能在执行任务时将记忆融入自身参数。这意味着在对话场景中,模型能像人类一样积累经验,随着时间推移越来越了解用户。这种能力在传统Transformer架构下难以实现,更不用说被剪枝、蒸馏等手段破坏了再学习能力的「小模型」。
为什么RockAI要对Transformer架构发起挑战?这源于团队对AI未来发展的深刻洞察。他们认为,真正的智能设备应该具备自主学习能力,而不是像现在许多设备那样,一旦部署就固定不变。这种理念在具身智能、空间智能等方向的热潮中得到了印证。
在技术实现层面,Yan架构突破了传统架构对硬件性能的依赖。RockAI CTO杨华表示,团队坚持三个核心理念:AI必须存在于设备端而非云端,智能设备应具备成长进化能力,最终通过群体智能走向通用人工智能。这种技术路线让RockAI在AI硬件市场中脱颖而出。
离线智能的实现让设备摆脱了对网络的依赖,具备了自主学习能力。这种「成长」的价值正在显现:当硬件具备记忆和学习能力后,其长期价值才开始真正体现。智能程度和进化能力成为硬件的差异化卖点,这与传统硬件以配置参数为卖点的模式形成鲜明对比。
RockAI的创新之路并非一帆风顺。几年前,选择另起炉灶研发新架构时,外界更多是质疑和不解。但随着原生记忆能力的展现,这种技术路线的优势逐渐显现。现在,许多对端侧部署、记忆能力有需求的硬件厂商开始主动接触RockAI,寻求技术合作。
这种技术突破背后是团队对AI本质的深刻理解。杨华指出,未来他们将继续坚持这条「难而正确」的技术路线,甚至向人工智能根基——反向传播算法发起挑战。目前的解决方案已在小规模数据上完成测试,验证了技术可行性。
在众多AI创业公司中,RockAI展现出的前瞻性和技术韧性非常罕见。这种「长期主义」精神在浮躁的创业环境中显得尤为珍贵。从质疑到共识,RockAI的创新之路印证了技术突破需要时间积淀,也预示着AI领域正在迎来新的变革浪潮。
文章来自微信公众号「机器之心」