GPT-4o桌宠,自己动手能做吗? 这样的人机互动,方案哪里找?

2025-10-16 08:40:27 作者:Vali编辑部

市面上的AI宠物产品层出不穷,但真正能让人动手制作的方案却不多见。最近一位技术爱好者打造的章鱼形态AI桌宠,凭借其独特的交互方式和可复现的硬件结构,成为近期科技圈关注的焦点。这款名为Shoggoth的机器人,不仅具备基础对话功能,还能通过触手动作传递情绪,其设计思路和实现方式为想要自己动手制作AI宠物的用户提供了全新思路。

从硬件设计角度看,Shoggoth的结构相当简洁。主体由三台电机驱动的底座构成,顶部采用3D打印技术打造的圆锥形外壳,配合悬挂式触手结构形成完整形态。这种设计在保证机械稳定性的同时,也降低了制作门槛。触手模块借鉴了SpiRobs柔性机器人原理,通过模仿章鱼的抓取策略,实现了对不同形状物体的适应性抓取。测试数据显示,该系统能稳定抓取重量达自身体重260倍的物体,这种性能在桌面级机器人中较为罕见。

触手的控制逻辑是整个系统的核心。小哥采用2D映射方案将触控板操作转化为三维动作,通过确定三个肌腱的主拉力方向形成三角形,再将向量投影到每个肌腱的主轴上实现精准控制。这种方案既简化了操作流程,又保持了动作的自然流畅性。值得注意的是,系统特别加入了轻微摇摆的等待行为,让机器人在静止状态也能保持生命感,这种细节处理提升了交互体验。

在算法层面,Shoggoth采用双层控制架构。低级控制通过开环预设动作和闭环RL策略实现,比如用立体视觉追踪手指运动。高级控制则依托GPT-4o的实时API处理语音和视觉事件,将交互内容转化为文本提示。这种设计让机器人无需额外训练就能理解用户指令,大大降低了使用门槛。测试中发现,LLM过度调用时可通过Prompt工程进行优化,这种灵活的控制方式为后续功能扩展预留了空间。

触手的感知系统同样值得关注。手部追踪直接使用MediaPipe框架,而触手尖端追踪则通过多场景数据集训练YOLO模型实现。小哥采用K-means聚类过滤冗余数据,结合Roboflow自动标注和Segment Anything增强数据集,最终通过Ultralytics训练出精准的识别模型。这种数据处理流程确保了机器人能准确捕捉用户动作,为后续交互提供可靠依据。

在控制策略方面,小哥创新性地使用PPO算法结合MLP和帧堆叠技术,通过动力学随机化和扰动质量设置,使系统更贴近真实环境。测试中发现,直接使用肌腱长度作为动作空间会导致"走捷径"现象,后改为二维投影空间并添加控制惩罚,有效解决了连续动作差异问题。最终通过指数移动平均和阻尼设置,实现了稳定控制,证明了该策略在仿真到现实环境迁移中的有效性。

制作这款机器人的技术达人Matthieu Le Cauchois,目前是ML工程师,专注于强化学习、语音识别和神经科学领域。他的项目经历显示,早在2020年就参与开发过医疗咨询助手,后来加入Doctolib从事语音识别工作。这种跨领域经验让他在设计Shoggoth时,能巧妙融合语音交互、动作控制和情感表达等多重要素。

从实际应用角度看,Shoggoth的可复现性是其最大亮点。小哥完整公开了所有3D打印CAD文件,用户只需下载工程文件就能完成制作。这种开放性设计让更多爱好者能参与其中,推动AI宠物技术的普及。同时,机器人具备的陪伴功能,让其在家庭场景中具有独特价值,尤其适合需要情感互动的用户群体。

相比市面上的AI宠物产品,Shoggoth的优势在于其可定制性和互动性。通过调整触手动作和语音反馈,用户能创造个性化的"宠物"体验。这种设计思路为未来AI宠物发展提供了新方向,让技术爱好者不仅能使用成品,更能参与创作过程,真正实现"手搓AI宠物"的愿景。

工程文件:https://www.valimart.net/