作者在最近提起的一项扩大的集体诉讼中指控 NVIDIA 侵犯版权,指控该公司从 Anna’s Archive 获取数百万本盗版书籍用于人工智能培训。投诉援引的内部文件表明 NVIDIA 寻求高速访问影子库的数据。
由于对其人工智能学习芯片和数据中心服务的需求,芯片制造商英伟达在人工智能领域的收入有所增加。该公司开发了 NeMo、Retro-48B、InstructRetro 和 Megatron 等人工智能模型,并使用其硬件和广泛的文本库进行训练。
这项法律挑战是在之前的诉讼中提出的,在这些诉讼中,作者指控科技公司在盗版书籍上训练人工智能模型。 2024 年初,作者起诉 NVIDIA,指控其 AI 模型是在 Books3 数据集上训练的,其中包括未经许可的 Bibliotik 网站的版权作品。英伟达为其行为辩护称其为合理使用,称书籍充当其人工智能模型的统计相关性。在发现过程中,原告发现了更多证据。
周五,作者提交了一份修改后的申诉,扩大了诉讼范围。此次更新包括更多书籍、作者和人工智能模型,以及新的“影子图书馆”声明。包括 Abdi Nazemian 在内的作者引用了 NVIDIA 内部电子邮件和文件,声称该公司愿意下载数百万本受版权保护的书籍。投诉称“竞争压力促使 NVIDIA 进行盗版”,其中涉及与 Anna’s Archive 的合作。
根据修改后的投诉,NVIDIA 数据战略团队成员联系了 Anna’s Archive 以评估数据产品。诉状详细描述了互动过程:“由于急需书籍,NVIDIA 联系了 Anna’s Archive(现存影子图书馆中规模最大、最厚颜无耻的图书馆),要求获取其数以百万计的盗版材料,并‘将 Anna’s Archive 纳入我们法学硕士的预训练数据中’。”安娜档案馆为其盗版藏品的“高速访问”收取了数万美元的费用; NVIDIA 调查了此访问的具体情况。
诉状称,Anna’s Archive 向 NVIDIA 通报了其库的非法性质。随后,盗版图书馆询问 NVIDIA 高管是否已获得继续进行的内部许可。据称一周内就获得了许可,之后安娜档案馆提供了对其盗版书籍的访问权限。 “在联系 Anna’s Archive 一周内,以及 Anna’s Archive 就其藏品的非法性质发出警告几天后,NVIDIA 管理层为继续盗版行为开了‘绿灯’。Anna’s Archive 向 NVIDIA 提供了数百万册盗版版权书籍,”诉状称。
Anna’s Archive 承诺 NVIDIA 能够访问大约 500 TB 的数据,其中包含通常通过互联网档案馆的数字借阅系统提供的数百万本书,该系统本身也面临着法律审查。投诉没有具体说明 NVIDIA 是否为此访问权限向 Anna’s Archive 付费。除了 Books3 数据库外,起诉书还称 NVIDIA 还从 LibGen、Sci-Hub 和 Z-Library 下载书籍。
作者还声称 NVIDIA 分布式脚本和工具使企业客户能够自动下载“The Pile”,其中包含 Books3 盗版数据集。这些索赔提出了替代侵权和共同侵权指控,指控 NVIDIA 通过促进对这些数据集的访问从客户那里获得收入。作者寻求损害赔偿,向集体诉讼中的指定作者以及可能的其他数百人提出申请。这是美国大型科技公司与安娜档案馆之间的通信首次公开披露,可能会提高盗版图书馆在最近域名丢失后的知名度。
向美国加利福尼亚州北区地方法院提交的第一份合并和修订申诉的副本以 PDF 格式提供。指定作者包括 Abdi Nazemian、Brian Keene、Stewart O’Nan、Andre Dubus III 和 Susan Orlean。







