Pokee.ai凭什么融资千万?RL技术能帮服装、鞋履行业做什么?

2025-10-16 11:05:13 作者:Vali编辑部

Pokee AI 公开测试版正式上线,这场关于AI Agent的探索之旅已悄然开启。

北京时间上午10点,大洋彼岸的Pokee.ai创始人朱哲清接通了我们的连线电话。此时他正位于美国西海岸,当地时间是前一日晚上7点。这位刚满29岁的创业者一边在小红书庆祝生日,一边认真回复网友提问,一边忙着推进产品公测和融资事宜。他的状态可以用一个字概括——忙。

这种忙碌并非从最近开始。往前推200多天,他同样在为Pokee.ai的成立奔波,与100多位投资人探讨如何用强化学习模型构建AI Agent。再往前追溯到2017年,他在斯坦福攻读强化学习方向博士学位,同时在Meta工作,带领团队将强化学习落地到广告竞价、自动内容生成等业务,为公司带来高额增收。这似乎早已成为朱哲清的生活常态。

创业的节奏比想象中更快。从去年10月成立Pokee.ai,到产品公测和完成种子轮融资,仅用了7个多月。这个速度在Meta体系内大概能快4-5倍。虽然工作强度没有明显变化,但朱哲清表示,创业让他有了更多时间思考,这种体验与以往不同。

谈及产品核心架构,朱哲清解释道:Pokee.ai与主流以LLM为核心的AI Agent不同,其核心是强化学习(RL)。在Pokee的架构中,LLM主要承担人机交互界面功能,类似「UI层」,用于理解用户意图,而真正决策和执行任务的都是基于RL结构完成。这种设计让系统具备更强的决策能力,但同时也对Prompt的准确性提出更高要求。

在与投资人沟通时,这种差异化曾被视为「天方夜谭」。当朱哲清第一次提出「用强化学习搭建AI Agent」的构想时,投资人更习惯看到基于LLM的解决方案。但随着技术演进,这种差异逐渐显现优势。特别是在需要精确执行的场景中,强化学习模型的动作空间(Action Space)与常规LLM模型的Token空间形成明显区分。

用户体验层面,Pokee的测试版已暴露出一些问题。用户给出Prompt后,系统生成的内容往往与预期存在偏差。这种现象源于「对齐」(Alignment)难题——如何准确理解用户真实意图。朱哲清表示,这需要通过长期Memory建立个性化理解,才能找到用户的Ground Truth。

「比如投资人写『帮我draft一个LinkedIn Post』,这个『draft』到底是单纯写好不发,还是直接发出去?」朱哲清举例说明。要理解这种细微差别,需要查看用户过往的表达习惯和交互记录,这在当前技术条件下仍具挑战性。

当前阶段,Pokee团队正专注于解决核心问题。朱哲清认为,商业化不是优先级,首先要做的是确保系统能准确执行任务。在完成基础功能后,再逐步探索更深层次的个性化理解。

谈及团队架构,朱哲清透露:目前团队有7人,接下来还会招2-3人,但大概率在收入规模扩大前不会超过10人。这种轻量级配置在AI时代显得尤为突出,模型、产品打磨等方面用不了太多人,人多了反而会影响执行效率。

远程办公模式也是团队特色。由于成员分布在美国西雅图、湾区和新加坡,团队完全采用线上协作。这种模式不仅提高了效率,也方便兼顾生活。每天线上会议讨论决定工作重点,这种灵活的工作方式成为创业团队的常态。

从技术角度看,Pokee的架构设计体现了AI时代的创新思维。将小型LLM作为人机交互界面,强化学习负责核心决策,这种组合既保留了语言理解的优势,又提升了执行能力。但这也意味着对Prompt的准确性要求更高,这种平衡需要在实践中不断优化。

这场关于AI Agent的探索仍在继续。Pokee AI的公开测试版上线,标志着这场技术革新又向前迈出一步。如何在保持执行效率的同时,提升用户意图理解的准确性,将成为未来发展的关键。这场充满挑战的旅程,正由一群充满热情的创业者引领前行。