大模型侵权风险有多高?天价赔偿背后的原因是什么?
AI大模型的秘密配方是什么?答案可能很简单:海量的盗版内容。
这在业内已经成了公开的秘密。某媒体的诉讼将OpenAI和微软推上被告席,这场战争迅速蔓延到整个硅谷。Meta因Llama模型使用盗版书籍被集体诉讼,Anthropic同样因Claude模型的训练数据被告,几乎所有头部玩家都面临法律挑战。
这场大模型与版权方的核心争议是:在未授权情况下,将受版权保护作品用作训练数据,究竟是合法的“变革性使用”,还是“侵权盗用”?
在众多悬而未决的案件中,进展最快的是Anthropic案。2025年6月的裁决给出了重要信号:模型训练行为本身因能创造出新事物,具有高度“变革性”,可能不构成侵权;但获取数据的方式若涉及盗版网站或未经授权复制,则难以被“合理使用”原则豁免。
根据计算,Anthropic或将面临7500亿美元天价赔款。这个信号让所有AI公司都捏了一把汗。大模型厂商们“先污染,后治理”的野蛮生长,或许要到头了。
数据获取的五种“野路子”
为了满足无止境的数据需求,各大模型厂商各自走出充满争议的野路子,每种都游走在法律边缘。
第一种方式是从公开内容中抓取,甚至主动清洗版权信息。AI公司利用强大网络爬虫,像撒下覆盖全球的巨网,将新闻网站、专业博客、学术论坛、社交媒体上的公开内容尽数捕捞,构建初期训练数据集。
例如,OpenAI在构建WebText数据集时,抓取了社交新闻网站Reddit上数百万个外部链接,间接将海量受版权保护内容纳入囊中,某媒体的文章赫然在列。
<除了抓取,更致命的是清洗行为。某媒体的诉讼指出,OpenAI在抓取新闻内容时,系统性地移除了版权声明、作者署名、页脚等关键版权信息。这一行为被判定为数据获取性质发生根本性转变——从可能无意的“顺手牵羊”,升级为具有明确规避意图的“数据清洗”。
第二种方式是格式转换:从视频和纸书中提取文本。随着高质量公开文本日益枯竭,厂商们将目光投向其他格式内容载体,通过技术手段将其转换为纯文本,这种做法更为隐蔽。
典型手法是OpenAI对其语音识别工具Whisper的“妙用”。据称,OpenAI利用Whisper转录了超过一百万小时的YouTube视频内容。这意味着,无论是深度访谈、专业课程还是纪录片解说,这些视频中最核心的语言资产,在未经创作者许可的情况下被悄然提取出来,直接“喂”给了GPT-4,绕过了视频本身的视听版权。
Anthropic也采用了一种戏剧性手法。在意识到直接使用盗版书库的法律风险后,专门聘请前谷歌图书扫描项目负责人启动“物理世界洗白计划”:
第一步,批量采购:斥巨资从图书分销商和零售商处购买数百万本纸质书,其中不乏二手书。
第二步,物理转化:将这些书运至服务商处,由机器拆掉装订、裁切书页,然后逐页进行高速扫描,生成包含图像和可机读文本的PDF数字文件。
第三步,销毁原件:扫描完成后,纸质原件被直接丢弃。此举的核心目的是在法律上论证这是一种“格式转换”,而非创造了“额外的副本”,从而规避侵权指控。
第四步,数据建库:为这些数字化的图书建立详细书目信息数据库,并进行分词、清理等一系列复杂预处理,最终形成来源上看似“合法”的高质量训练数据集。
但这一行为恰恰证明了:第一,AI公司已充分认识到高质量数据的版权价值;第二,获取合规数据的成本远比想象中要惊人。
第三种方式是“影子图书馆”。在争分夺秒的技术竞赛和巨大性能压力下,部分公司选择使用盗版资源。
第四种方式是数据购买。面对如雪片般飞来的诉讼,大模型厂商中的激进派也在向保守派转变。
第五种方式是数据合作。苹果从一开始就将用户隐私和规则置于更重要的位置,宁愿在AI竞赛中起步较晚,也要通过明确授权许可和自有数据来规避法律风险。
版权方的战术转变
在两个战场上,版权方都打得异常艰难。在这种胶着状态下,版权方的诉讼策略发生决定性转向,找到了更根本、更致命的攻击点——数据的来源合法性。
法院的阶段性审理给出了微妙且影响深远的信号:一方面,初步裁决认为AI的输出内容和训练行为本身因“变革性”,或许不构成直接侵权,这在某种程度上为大模型的发展留下了空间,避免了技术创新被彻底扼杀;但另一方面,法院对“来源合法性”划出了明确红线,严厉打击了使用盗版资源的行为。
面对如雪片般飞来的诉讼,大模型厂商中的激进派也在向保守派转变。
保守派的代表就是苹果,它从一开始就将用户隐私和规则置于更重要的位置,宁愿在AI竞赛中起步较晚,也要通过明确授权许可和自有数据来规避法律风险。
而激进派的Meta和早期的OpenAI,则是信奉“移动快,打破规则”的硅谷信条,将潜在的法律诉讼视为一种可以计算和承受的商业成本。但在诉讼缠身后,OpenAI迅速转变为积极的数据“购买者”,斥巨资与美联社、金融时报等数十家媒体签署内容许可协议;Anthropic则上演了从使用盗版书库,到斥巨资购买、扫描、销毁实体书的“苦力式洗白”。
这些都意味着,“数据免费”的黄金时代已一去不复返,数据将成为AI公司财报上一个明确且高昂的成本项。
从整个行业来看,手握优质内容的内容出版商、新闻机构,将从被动的受害者,转变为AI产业链上游一个手握筹码、拥有强大议价权的关键参与者;这反过来又会急剧抬高行业的竞争壁垒,拥有强大现金流和顶尖法务团队的科技巨头相比AI创业公司将有着更强的竞争优势。AI行业的竞争,已从单纯的算法和算力竞赛,扩展到了一场关于数据供应链管理、商业谈判和法务合规能力的全面战争。
当那些充满争议的盗版“野路子”被一条条堵死,一个更加昂贵的AI时代,已经来了。