人工智能公司 Anthropic 同意支付创纪录的 15 亿美元,以和解一场由作家和出版商提起的集体诉讼。该诉讼指控 Anthropic 使用从网络「影子图书馆」获取的盗版书籍来训练其 AI 模型,此案的和解可能将彻底改变 AI 产业的游戏规则。
在人工智能技术飞速发展的今天,一场关于版权与创新的法律大战,似乎迎来的一个历史性的转折点。AI 新创公司 Anthropic 最近同意支付高达 15 亿美元的和解金,了结一场指控其大规模侵犯版权的集体诉讼。
这起案件的核心,直指当前许多 AI 模型训练方式的灰色地带。一群作家与出版商指控,Anthropic 为了训练其知名的 Claude 大型语言模型,从 Library Genesis (LibGen) 和 Pirate Library Mirror (PiLiMi) 等被视为「影子图书馆」的盗版网站,非法下载了数十万本受版权保护的书籍。
这笔和解金不仅是数字上的惊人,更可能为整个 AI 产业投下一颗震撼弹,迫使所有科技公司重新审视其数据来源的合法性。那么,这场官司的背后究竟发生了什么?这笔天价和解又意味着什么?
和解的葫芦里卖什么药?
这份和解协议的条款,不仅仅是金钱赔偿那么简单,它为权利人争取到了实质性的胜利,并划下了几条清晰的红线。
史上最大规模的版权赔偿基金
首先,最引人注目的就是 至少 15 亿美元的非返还式和解基金。这意味着这笔钱将全数用于赔偿受影响的版权所有者。根据诉讼文件,涉及的作品数量约为 50 万部,换算下来,每部作品平均可以获得约 3,000 美元的赔偿。
更重要的是,协议规定,如果最终确认符合条件的作品超过 50 万部,Anthropic 必须为每部新增的作品额外支付 3,000 美元。这确保了赔偿的公平性,也显示了原告方在这场谈判中的强势地位。
销毁数据,从源头斩断侵权
除了金钱,原告方还争取到了一项关键性的未来保障措施:Anthropic 必须 销毁从 LibGen 和 PiLiMi 获取的盗版书籍数据集。
这点至关重要。销毁数据不仅是对过去侵权行为的惩罚,也防止了这些非法获取的资料在未来被继续用于训练或开发新的 AI 模型。这就像是要求小偷不仅要归还赃物,还得销毁所有作案工具一样,从根本上解决问题。
只谈过去,不放过未来
很多人可能会问,这是否意味着 Anthropic 未来就可以高枕无忧了?答案是否定的。
这次和解的范围经过了严格限定,仅涵盖截至 2025 年 8 月 25 日的「过去」侵权行为。这意味着:
- 未来的侵权行为不被豁免: 如果 Anthropic 在此日期之后继续使用侵权内容,权利人依然可以提起新的诉讼。
- AI 生成内容的侵权问题悬而未决: 协议明确指出,它不涵盖由 Anthropic 的 AI 模型「输出」的侵权内容所引发的任何索赔。这是一个非常聪明的安排,因为 AI 生成内容是否构成侵权,是目前法律界争论最激烈的议题之一。原告方保留了未来就此问题提起诉讼的权利。
这场硬仗是怎么打赢的?
走到今天这一步,绝非偶然。原告方的律师团队透过一系列漂亮的法律攻防,才迫使 Anthropic 坐上谈判桌。
起初,Anthropic 的主要辩护理由是「合理使用 (Fair Use)」,这也是科技巨头在类似版权纠纷中最常用的挡箭牌。他们试图主张,使用这些书籍进行 AI 训练,是一种转换性的使用,旨在创造全新的技术,而非取代书籍本身,这与当年轰动一时的 作家协会诉 Google 案 (Authors Guild, Inc. v. Google, Inc.) 中的论点相似。
然而,原告方抓住了一个致命的关键点:数据来源的非法性。法院在审理过程中,部分采纳了原告的观点,认定 Anthropic 使用盗版材料的行为是 「本质上、无法挽回的侵权」。这一裁决极大地削弱了 Anthropic 的「合理使用」主张,并为最终的和解铺平了道路。
整个诉讼过程经历了艰苦的证据搜集,包括审查数百万页文件、超过 20 场的证人取证,以及对数 TB 训练数据的检查。正是这些不懈的努力,才揭示了 Anthropic 使用盗版资源的规模,最终促成了这场历史性的和解。
为何此案是 AI 产业的游戏规则改变者?
这起案件的影响,远远超出了 Anthropic 这一家公司。
美国作家协会 (Authors Guild) 的执行长称这次和解「向 AI 产业发出了一个强烈的讯息」,即盗用作家的作品来训练 AI 会带来严重的后果。美国出版商协会 (Association of American Publishers) 也表示,这次和解案「在传达『AI 公司不能非法获取内容作为其业务基石』这一讯息方面,具有巨大的价值」。
过去,许多 AI 公司在「数据越多越好」的思维驱使下,对于训练数据的来源睁一只眼闭一只眼。他们可能认为,只要最终的 AI 模型不直接复制原文,法律风险就是可控的。但 Anthropic 案无疑敲响了警钟:数据的「原罪」无法轻易洗白。
这将迫使所有 AI 开发者,从科技巨头到小型新创,都必须建立更加严格的数据来源审核机制,转而寻求与内容创作者和出版商合作,透过授权等合法途径获取训练数据。
接下来会发生什么?
目前,这份和解协议还需要得到法院的初步批准。一旦批准,下一步将是通知所有符合条件的集体诉讼成员(即其作品被收录在「作品清单」中的版权所有者),并举行最终的公平听证会。
这个过程将会非常复杂,特别是如何准确地识别所有受害作品,以及如何将高达 15 亿美元的和解金公平地分配给成千上万的作者和出版商,将是一个巨大的挑战。
无论如何,Anthropic 的天价和解案已经在中国工智能的发展史上写下了重要的一笔。它不仅为内容创作者争取到了应有的尊重和赔偿,也为 AI 这个狂野发展的领域,划下了一道清晰的法律与道德的底线。科技的创新不应建立在对他人劳动成果的践踏之上,这或许是此案给予我们最深刻的启示。
资料来源
https://storage.courtlistener.com/recap/gov.uscourts.cand.434709/gov.uscourts.cand.434709.363.0.pdf


