Sesame语音技术,能带来多大的惊喜?Meta收购后,它又将如何进化?

2025-10-22 08:45:26 作者:Vali编辑部

图片来源:Sesame官网

语音交互的新时代

智能手机出现后,我们习惯了通过屏幕操作设备,手指在屏幕上滑动点击已成为日常。但这种交互方式始终隔着一层玻璃,让人感觉与真实世界之间存在距离。Sesame公司想让AI真正听懂人心,让沟通回归自然。他们通过可穿戴设备提供高品质音频,让AI伴侣像人类一样观察世界,实现人与AI的自然对话。

图片来源:Sesame官网

语音交互的突破点

过去几十年来,人机交互方式经历了多次变革,从键盘鼠标到触摸屏,但始终没能突破屏幕的限制。Sesame团队认为,语音作为人类最原始的沟通方式,应该成为下一代交互范式的突破口。他们开发的Conversational Speech Model(CSM)语音技术平台,让AI具备情感智能和上下文感知能力,使对话更像与真人交流。

图片来源:Sesame官网

开源模型的突破

2025年3月,Sesame正式开源了其CSM语音生成模型。这个基于Llama架构的模型参数量达10亿,使用超100万小时音频数据训练,具备实时生成多样化语音的能力。开发者可以通过huggingface.co平台直接访问模型,体验语音助手的对话功能。

图片来源:Sesame官网

真实对话的体验

在Sesame的研究演示界面,用户可以选择与AI伴侣Maya或Miles进行对话。通过麦克风权限授权,可以体验AI对"今天心情如何"等简单问题的回应。语音助手会根据对话内容调整语气,表现出兴奋、思考等自然情感变化,营造出与朋友聊天的氛围。

图片来源:Sesame官网

用户的真实反馈

Reddit用户SOCSchamp表示:"这是我第一次感受到AI达到新高度。"有家长发现4岁女儿把AI伴侣Miles当成了朋友,禁止互动时甚至会哭泣。另一位用户表示,与Maya讨论个人挑战时,AI的语气充满同理心,像在与治疗师对话。

图片来源:Reddit

技术细节解析

Sesame的CSM模型通过模仿呼吸、轻笑和打断等细节,增强交互的真实感。AI在对话中会表现出说错词后自我纠正等不完美特征,让对话更自然。但Miles在对话中没有长期记忆,无法记住之前提到的内容。

图片来源:Reddit

团队背景分析

Sesame由Oculus联合创始人Brendan Iribe等VR/AR领域专家领衔。Brendan曾带领Oculus团队开发虚拟现实设备,现专注于AI与用户体验结合。Ankit Kumar作为技术负责人,有AR和计算机视觉开发经验。Ryan Brown在硬件工程方面也有丰富经验,为Sesame的硬件创新提供支持。

图片来源:Linkedin

融资进展

Sesame已完成A轮融资4750万美元,由Andreessen Horowitz领投。这些投资者都是Oculus的早期支持者,说明市场对AI交互技术的看好。团队计划通过扩展语言支持、增强情商能力等方式,开发更复杂的全双工模型。

图片来源:Sesame官网

未来发展方向

随着技术进步,Sesame计划探索多模态模型,让AI同时理解语音和文本。这种技术将推动AI眼镜等硬件设备的发展,让交互体验更接近人类自然沟通方式。但如何平衡技术进步与伦理影响,仍是需要持续关注的问题。