Llama 3.1 还能“记得”哈利·波特？这会对AI版权带来什么冲击？

2025-10-18 10:50:36 作者：Vali编辑部

AI版权争议：模型记忆能力引发法律新挑战在人工智能领域，关于训练数据的版权使用问题持续引发关注。最新研究显示，Llama 3.1 70B模型对《哈利·波特与魔法石》内容的复现能力显著提升，这一发现为版权法实践带来新挑战。研究团队选取36本经典著作进行测试，通过计算50个标记序列的匹配概率，发现Llama 3.1 70B对《哈利·波特》内容的复现率超过50%。这一结果意味着模型已将整本书的大量内容纳入其权重体系。值得注意的是，该模型的训练数据量达到15万亿个标记，是前代模型的10倍以上，这可能加剧了对热门文本的存储能力。研究者指出，模型对《哈利·波特》的深度记忆与训练数据的多样性密切相关。大量网络讨论、粉丝论坛和书评内容可能成为训练数据的重要来源，这些二次创作内容往往包含原作的直接引用。这种现象表明，模型不仅学习语言模式，还可能继承作品的实质性内容。当前版权争议主要围绕三种理论展开： 1. 训练过程本身构成侵权，因涉及作品的数字复制 2. 模型成为版权法定义的衍生作品 3. 生成受保护内容即构成侵权研究显示，Llama 3.1 70B对《哈利·波特》的高复现率可能影响法院对合理使用原则的认定。传统上，谷歌图书案认为训练数据的使用属于合理范围，但该模型能生成完整段落而非简单摘录，这可能削弱这一辩护。研究团队发现，开放权重模型比封闭式模型面临更大法律风险。由于可访问底层数据，研究者能够精确计算标记序列的概率。而像OpenAI、Anthropic等公司限制对logits的访问，使得外部研究难度增加。这种技术壁垒可能影响法官对合理使用的判断。研究者指出，公开模型的广泛传播可能带来双重影响：一方面促进知识共享，另一方面增加侵权风险。这种矛盾关系使得版权法在AI时代的适用面临新考验。专家认为，未来司法实践需要在创新保护与知识共享之间寻求平衡点。这项研究为版权法实践提供了重要参考，揭示了人工智能技术发展对传统版权制度的冲击。随着模型能力的持续提升，相关法律体系的完善将显得尤为迫切。