小红书开源大模型,能为鞋服设计带来什么新可能?多模态技术,未来会彻底改变行业吗?

2025-10-14 08:55:11 作者:Vali编辑部
这篇文章详细介绍了小红书推出多模态大模型 **dots.vlm1** 的技术细节、战略意义以及行业背景,以下是关键点总结: --- ### **1. 技术核心:多模态大模型 dots.vlm1** - **模型架构**: - 基于 **DeepSeek V3**,专为视觉语言模型(VLM)设计。 - 采用 **42层Transformer** 和 **1.2B参数**,支持高分辨率输入(千万像素级别)。 - 两阶段训练策略: - **第一阶段**:从224×224分辨率图像开始,通过 **NTP(下一Token预测)** 和 **NPG(下一Patch生成)** 增强感知能力。 - **第二阶段**:逐步提升分辨率至百万/千万像素,结合OCR、grounding数据(如边界框)等丰富数据源。 - **预训练数据**: - **跨模态互译数据**:图像与文本的双向翻译(如Alt Text、Dense Caption、视频帧+时间序列描述)。 - **跨模态融合数据**:图文混合上下文的NTP预测,通过自研工具清洗网页和PDF数据(如 **dots.ocr** 用于PDF解析)。 --- ### **2. 战略动机:多模态是通向AGI的必经之路** - **行业趋势**: - 多模态模型(如GPT-4o、Gemini 2.5 Pro)成为主流,因其能模拟人类多感官综合感知世界的能力。 - **VLM**(视觉语言模型)在理解、推理、具身智能(如自动驾驶、机器人)等领域需求强烈。 - **小红书的动机**: - **内容理解**:小红书月活超3.5亿,需精准理解用户生成的图文内容,提升个性化推荐。 - **AI辅助创作**:在UGC社区中,AI需“更懂人”,而非仅辅助创作(如文生图模型)。 - **技术自研**:自建云、自研IM(redcity)显示其向技术自研的战略倾斜。 --- ### **3. 多模态 vs 文生图:小红书的选择** - **VLM vs 文生图**: - **VLM**:侧重理解图像并输出文本(如内容分析、推荐)。 - **文生图**:侧重生成图像(如创意设计、广告)。 - **小红书优先选择VLM**: - 因其社区更注重“理解用户”,而非“生成内容”。 - 未来可能以VLM为“理解底座”,逐步扩展到图生图、视频生成等创作能力。 --- ### **4. 技术布局:dots模型家族的扩展** - **dots模型家族**: - 已开源 **dots.llm1**(文本模型)、**dots.ocr**(文档解析),最新推出 **dots.vlm1**(多模态)。 - 预示未来可能基于dots文本模型训练多模态模型,实现“模应一体”(模型与应用结合)。 - **AI人文训练师**: - 专门团队(哲学、文学、历史等)参与模型后训练,强化人文理解能力。 --- ### **5. 行业影响:小红书的多模态野心** - **多模态成为AI竞争核心**: - 从GPT-4o到Genie3(3D世界生成),多模态能力推动AI向AGI演进。 - 小红书通过自研VLM,巩固内容理解优势,为未来AI与社区交互(如智能推荐、虚拟助手)奠定基础。 --- ### **总结** 小红书推出 **dots.vlm1** 是其在多模态AI领域的关键布局,旨在通过理解用户生成内容、提升个性化推荐,同时为未来具身智能、AI交互等场景做准备。其技术路线(基于DeepSeek V3、自研数据工具)和战略选择(优先VLM而非文生图)反映了其对UGC社区的深度理解与长期技术自研的决心。