这件事,Meta到底做了什么?AI训练数据问题,谁来承担责任?
你有没有想过,Meta训练AI用的数据里,可能藏着一些你意想不到的“秘密”?比如你深夜偷偷下载的成人电影?
这可不是段子。2025年7月23日,两家美国成人电影公司——Strike 3 Holdings和Counterlife Media,把Meta告上了加州北区联邦法院。他们指控Meta从2018年开始,用BitTorrent技术悄悄下载了2396部成人电影,用来训练自家的AI模型。包括视频生成器Meta Movie Gen、LLaMA大语言模型,还有其他“未透露名称的模型”。
这起案件的赔偿金额高达3.59亿美元,每部片子15万美元。听起来像是天价,但对AI训练来说,这或许只是冰山一角。Meta究竟为何会陷入这场官司?背后又藏着哪些不为人知的故事?
Meta,是怎么把自己送上法庭的事情要从另一个案子说起。2023年,Meta被一批作家集体起诉,说它用盗版图书训练自家的LLaMA模型。而在那个案子里,Meta自己承认:是的,我们的确用了BitTorrent,从多个“影子图书馆”下载了大量盗版书籍,总共81.7TB的数据。
这可不是员工擅自行为,而是平台层面的系统性操作。公司设了六个虚拟私有云服务器(VPC),连着匿名IP地址,用来掩盖BitTorrent活动。他们甚至写了脚本来控制做种行为,以防自己太明显地暴露。
正是在这个案子中,Strike 3发现Meta的IP地址出现在BT群组里。于是他们开始顺藤摸瓜,把Meta相关的47个IP地址一一筛查、匹配下载记录,还用MaxMind做地理定位,再结合他们内部的追踪软件VXN Scan和Cross Reference Tool,挖出了一个令人目瞪口呆的结果:这些IP多年来一直在稳定下载并做种他们家的成人电影,而且是“高频+长时段+多分辨率”同步下载,有着明显“非人类”的行为模式。
「比如下图所示的185.89.216.251,根据MaxMind IP数据库,归属于Facebook公司名下,连接类型为Corporate网络。」
你以为这就完了?当然不是。有多个IP虽然不归属Meta,但与其下载行为在内容、分辨率、语言版本上几乎完全重合,且出现在同一BT群组中,存在高度协同嫌疑。Strike 3将其定义为Meta可能搭建的off-infra服务器(即公司架构外的行为代理)。
其中一个IP地址追踪到了一个Comcast家庭宽带,绑定在某个Facebook员工的家中。图中显示,Meta公司IP、off-infra服务器IP和员工家庭宽带IP在BT网络中形成了一个完整的数据链。
为什么偏偏是色情片?这或许与成人电影的特性有关。相比其他类型的影视作品,成人电影在BT网络上的传播速度更快,下载量更大,且用户群体相对稳定。这种“高流量+低门槛”的特点,让它们成为AI训练模型的天然素材。
更关键的是,成人电影的版权归属较为清晰,一旦发现侵权,维权方可以迅速锁定IP地址并采取法律行动。这种“先抓后和解”的模式,正是Strike 3等公司赖以生存的商业模式。
数据显示,从2017年到2023年,Strike 3在美国联邦法院提起了近9500起此类诉讼。平均下来几乎每天都在起诉,且大多采用“John Doe”匿名形式锁定IP地址后,通过法院命令向ISP索取用户身份,再发律师函要求庭外和解。
这种“打官司流水线”模式,让Strike 3在版权维权领域占据绝对优势。而Meta作为全球科技巨头,自然成为他们重点盯上的目标。
数据越脏,模型越香在AI训练的现实里,“没有数据就没有AI”。训练一个视频生成模型需要的素材量是“百万小时”级别的。若全用正版,授权费用能过亿美元。而这些影片,在BT网络上几乎唾手可得。
在“没有数据就没有AI”的现实里,“先抓后和解”已经变成了行业潜规则。OpenAI、Stability、Google……哪家不是先偷后赔?只是这次,Meta撞上了一个极为擅长打官司、且对版权看得比命还重的对手——Strike 3。
说到这儿,我们必须再讲一个背景故事。Strike 3是美国最喜欢打官司的成人电影公司之一。他们几乎所有业务都围绕版权维权来展开,靠打盗版官司收和解费,年入数千万美元,已经把“维权”做成了流水线生意。
据统计,从2017年到2023年,Strike 3就在美国联邦法院提起了近9500起此类诉讼。平均下来几乎每天都在起诉,且大多采用“John Doe”匿名形式锁定IP地址后,通过法院命令向ISP索取用户身份,再发律师函要求庭外和解。
他们甚至自研了一整套追踪系统VXN Scan,每天扫描BT网络,看哪些IP在播种自家影片。可以说,他们在意的不是片子有没有被看,而是有没有人为此付钱。所以打造了一种既赚钱又不违法的商业模式:抓IP地址发律师函。
现实,比AI生成还魔幻我们很容易用“看黄片训练AI”来调侃这件事。但你有没有意识到,它其实揭露的是一个全行业共同回避的问题:AI模型吃进去的数据,没人知道是什么,也没人愿意说清楚它从哪来的。
Meta不是第一个,也不会是最后一个。只要监管缺位、披露不透明、法律落后,这种“数据洗白”就会成为主流。这次是情色片,下一次也许是你的医疗影像、你家的监控录像、你写的小说、你朋友的语音聊天。
所有这些,都会被“以研究为名”的AI模型在黑夜里吞噬。你甚至不知道它们被用来干嘛,最后会变成什么。
就像这次。那些片段,被喂给了一个叫Meta Movie Gen的模型。也许哪天,它能一键生成一部你完全无法分辨是真人还是AI拍的动作片,甚至演员的表情和情绪都真实得让你出戏。
而你从头到尾,都不知道它是谁教的动作。
但也不是所有人都在假装看不见。就在上个月,Cloudflare更新了政策:默认拦截所有未经许可的AI网络爬虫。只要你的网站挂在他们的CDN上,那些自称是“AI研究”的爬虫,连内容都看不见。他们的态度很明确:你要数据,请先打招呼。
这就是差别。有的公司在训练AI之前,先考虑别人的权利。而有的公司则在训练完之后,才开始算计怎么掩盖自己用过什么。
Meta至今还没有回应这场官司。可能他们在等和解,可能在准备技术澄清,或者干脆等公众忘记这件事。
无论这场官司最终胜负如何,有一个事实不会变:AI的未来,正是用你以为没人会看的数据,一点点喂大的。
你看到的是技术进步,它看到的是训练素材。
而素材,从来都不只是数据。
它也可能是你。