近400家纸媒起诉微软OpenAI:未经许可抓取新闻训练AI
起诉书称,被告“系统性且秘密地”爬取出版商的网站,并将文章、故事和其他原创作品复制到自己的服务器上,用它们来训练大型语言模型,同时从作品中删除版权管理信息。普拉特金(民主党)在接受采访时表示,这起诉讼是地方和区域报纸发起的最大规模的法律行动。微软方面未立即回应媒体置评请求。
一场蓄谋已久的版权战争
在2024年6月24日这一日, 美国纽约南区联邦地区法院收到了一份有着重大影响力的起诉书。有代表全美近400家地方报纸的出版商联盟达成了一项行动, 此联盟正式把微软以及OpenAI告上了法庭。这些被涵盖其中的报纸包含《纽约每日新闻》《芝加哥论坛报》等具有知名度的地方媒体, 它们所覆盖的是数百万读者每日得到新闻的来源渠道。
出版商联盟控告两家公司, 称其“系统性且秘密地”抓取自身网站上的新闻文章、故事以及原创作品, 用以训练GPT系列等AI模型。起诉书着重指出, 这些内容被复制至微软和OpenAI的服务器, 甚至原有版权管理信息被抹除, 直接违反了《数字千年版权法》。
新闻业为何集体爆发
这起诉讼的引发源头, 是因AI公司长期以无偿方式使用新闻内容的那种商业模式, 原告方表明, 像GPT和Copilot这样的生成式AI产品, 是完全构建于出版商多年投入人力、投入资金以及投入声誉才积累起来的内容之上的, 然而, 这些产品给微软和OpenAI带去了数十亿美元的市场估值, 可出版商却连“1分钱都未曾拿到”。
有一位身为代表原告, 名为马修·普拉特金的新泽西州前总检察长, 其所属党派为民主党, 他宣称, 这是一场地方和区域报纸有史以来所发起的规模最为庞大的法律行动。他很直接地讲, 如果AI公司持续不断地滥用新闻内容, 并且不承担相应责任, 那么本轮AI热潮极有可能会成为地方新闻业的“丧钟”。
OpenAI的回应与争议焦点
面临相应指控时, OpenAI的发言人Drew于回应期间表明, 该公司的模型发挥着推动创新的作用, 其训练所用的数据均是来自那些能够公开获取的来源之处, 并且是以“合理使用”这一原则作为基础的。他着重指出, OpenAI对创作者权益予以尊重, 乐意同出版商一道来合作解决相关问题。
但出版商联盟针对此情形并未予以认可, 他们持有这样的观点, 即“合理使用”原则是不能够被无限制地进行拓展放大的, 尤其在AI产品使得新闻网站原有的流量以及广告收入均都被直接代替的这种状况下, 微软方面对于媒体所提出的置评请求并没有马上作出回应, 如此一来便使得外界针对两家公司的立场产生了更多方面的揣测。
数据抓取背后的灰色地带
这场诉讼当中的核心争议之处, 在于AI公司究竟该如何去定义“公开数据”。出版商明确指出, 就算内容能够在网络上免费供人阅读, 那也并不等同于就能随意去抓取并用于商业模型训练。他们举了个例子来讲, 有一篇是记者耗费数周时间才撰写而成的深度调查报道, 却被AI模型通过一键复制的方式生成了摘要, 进而致使读者不再去访问原来的网站。
在美国所拥有的法律体系当中, 《数字千年版权法》清晰明确地禁止了故意去进行删除或者篡改版权管理方面的信息之事。起诉书指控了微软以及OpenAI, 在抓取内容之后, 直接就把这些信息给抹去了, 致使AI生成的输出没办法去追溯到原始的作者以及来源, 进而更加剧了侵权行为的隐蔽特性。
地方新闻业生死攸关
在此起诉讼的背后, 是地方新闻业长久以来所面临的生存棘手状况。根据统计显示, 自2005年开始以来, 在美国已经有超过2900家报纸走向倒闭, 众多社区失去了本地新闻的来源途径。出版商联盟觉得, AI 公司不但没有帮助复兴新闻业, 反倒借助免费抓取内容的方式更进一筹地吸走了广告与订阅方面的收入。
原告方着重表明要是法院不对这样的行为实施限制, 在未来的几年时间里, 会有更多的地方报纸被逼迫关闭, 他们期望法院下达命令去禁止微软以及OpenAI持续进行未经授权地抓取内容, 并且请求赔偿已经造成的经济损失, 与此同时确立明晰的使用许可机制。
全球AI版权监管风向
这起诉讼可不是那般独立存在的单一事情 , 在2023年年末时间段 , 《纽约时报》曾经起头起诉微软以及OpenAI出现侵权状况 , 在2024年刚开始的时候 , 好多有着图片还有文字版权的一些机构同样发起了类似类型的诉讼 , 欧洲以及亚洲好多不同的国家也正在针对新的AI版权方面的法规展开各个方面的讨论 , 要求AI所属公司把训练数据的来源进行公开呈现 , 另外还要支付合乎情理的费用。
目前, 美国国会还没有通过专门针对AI版权的立法, 这致使法院判决显得格外关键, 法官的裁决有可能为将来数十亿美元的版权补偿奠定基础, 也有可能改变整个生成式AI行业的商业模式, 不管结果怎样, 这起案件必定会成为数字时代版权与技术创新博弈的里程碑。
我想要问你, 你认为AI公司是不是应该为使用新闻内容支付费用? 要是付费的话, 每一篇文章给予多少才算是恰当的? 欢迎在评论区域分享你所拥有的看法, 点赞并且转发这一篇文章, 使得更多的人能够参与到讨论当中。