超过20家出版商起诉OpenAI和微软，指控其使用其内容训练ChatGPT

Reddit r/artificial 2026/06/29 15:17 新闻

lawsuit copyright publishers openai microsoft training-data scraping

摘要

美国35家报纸出版商已对OpenAI和微软提起诉讼，指控这两家公司未经许可抓取其受版权保护且需付费的内容用于训练ChatGPT，损害了本地新闻业。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/29 16:28

# 35家新闻出版商指控OpenAI和微软抓取文章来源：https://www.sfgate.com/tech/article/openai-newspaper-lawsuit-22322605.php OpenAI首席执行官山姆·奥尔特曼于2025年6月2日在旧金山莫斯康中心举行的Snowflake峰会上发表讲话。 Justin Sullivan/TNS/Getty Images美国各地的报纸出版商正在起诉OpenAI和微软（https://www.bloomberglaw.com/public/desktop/document/RichnerCommunicationsIncetalvMicrosoftCorporationetalDocketNo126c?doc_id=X30U1HD7K89A1B2FPNCSKI08OD），指控其抓取其网站内容以训练他们的旗舰人工智能模型。该诉讼于周三在美国纽约南区联邦地区法院提起，指控OpenAI和微软通过使用未经授权和付费墙保护的内容来训练ChatGPT的各个版本，从而从出版商的书面作品中获利。诉状称，这些行为阻止人们直接从原告处获取内容，导致新闻编辑室损失了广告和订阅收入。（微软并不拥有OpenAI，但持有该公司大量少数股权，并拥有为OpenAI的大语言模型提供动力的计算基础设施。）文章继续（广告下方）三十五个报纸出版公司（主要是独立和地方拥有）已作为共同原告加入。他们代表33个州的近400家新闻媒体，包括三家加州报纸：南太浩湖的《塔霍每日论坛报》（https://www.tahoedailytribune.com/）、特拉基的《塞拉太阳报》（https://www.sierrasun.com/）和尼德尔斯的《尼德尔斯沙漠之星》（https://www.mohavedailynews.com/needles_desert_star/）。诉状中写道：“出版商的新闻工作对被告的爆炸性增长至关重要，除非被告因其窃取、剥离和滥用出版商内容而被追究责任，否则被告策划并受益的人工智能热潮将成为地方新闻的丧钟——而地方新闻仍然是美国最受信任的新闻来源。” OpenAI发言人德鲁·普萨泰里周四在一份声明中告诉SFGATE，该公司在“公开可用的数据”上训练模型，其工作“基于合理使用”。但加州大学伯克利分校新闻学院院长迈克尔·博尔登认为，仅仅因为书面作品可能出现在开放的互联网上并不意味着版权被放弃。他强调，新闻媒体的出版过程是一项“昂贵的努力”，从为记者和编辑的新闻采集支付报酬到实际的出版成本。 “认为这些内容是免费获取并且像从天上掉下来的想法是不准确的，”博尔登在周五的一次采访中说。“创作作品（包括新闻）需要投入智力劳动，公司需要为此获得补偿。” SFGATE联系了这三家加州报纸的编辑，这些报纸的出版商是诉讼中的原告。塔霍每日论坛报和塞拉太阳报的编辑莱尼·格里福拒绝置评，而这两家报纸的出版商奥格登报业公司的代表未回应置评请求。微软在发稿前也回应了置评请求。原告律师马特·普拉特金周五在一份声明中向SFGATE声称，OpenAI“系统性地、故意地窃取”了受版权保护的材料，进而损害了当地社区。他说：“这些行为不仅非法，而且对已经面临经济压力和挑战的重要社区报纸造成了伤害。地方记者的工作不应在未注明出处或未获得补偿的情况下被窃取，新技术并不能豁免版权法。” 文章继续（广告下方）根据皮尤研究中心的分析（https://www.pewresearch.org/short-reads/2023/11/28/audiences-are-declining-for-traditional-news-media-in-the-us-with-some-exceptions/），现代媒体格局不断演变，印刷品的受欢迎程度处于历史最低点。根据路透研究所的一项研究（https://reutersinstitute.politics.ox.ac.uk/digital-news-report/2026/different-reasons-why-television-newspapers-and-radio-are-losing-their），随着社交媒体和替代媒体侵蚀传统新闻空间，新闻网站的读者数量也在下降。诉讼指控称，在OpenAI变得越来越有价值的同时，原告却被“剥夺”了订阅、广告和内容授权收入。诉状中写道：“出版商投入了数十亿美元来维持这项工作。被告对其巧取豪夺——却没有提供一分钱补偿。” 像OpenAI的ChatGPT这样的大语言模型每秒钟处理海量数据（https://www.demandsage.com/chatgpt-statistics/）。为了能够以这种规模运行并跟上不断增长的使用量（https://www.businessofapps.com/data/chatgpt-statistics/）和对准确性的要求，该技术需要被输入大量信息。公司通过抓取互联网的大规模快照（包括新闻文章的链接）并将其输入聊天机器人的代码来微调其回复。来自这些数据的文本被分解为“标记”，模型会记住这些标记并用于更好地预测如何回应用户的问题。 OpenAI继续使用越来越大的数据集来训练其更新的模型。根据诉讼中引用的OpenAI透明度报告，ChatGPT-2是在一个包含4500万个指向Reddit上发布的书面作品链接的单一数据集上训练的。但下一个版本ChatGPT-3则在多个此类数据集上训练，包括Common Crawl（https://commoncrawl.org/），在诉讼中被称为“互联网的副本”。诉讼指控称，Common Crawl包含数十万个由原告付费墙内容组成的标记。文章继续（广告下方）图片保持信息灵通，享受娱乐。注册即表示您同意我们的服务条款（https://www.sfgate.com/terms/）并确认您的信息将按照我们的隐私政策（https://www.sfgate.com/privacy/）中所述的方式使用。其他几家大型新闻机构也在对OpenAI和微软提起类似诉讼，包括《纽约时报》（https://harvardlawreview.org/blog/2024/04/nyt-v-openai-the-timess-about-face/）和《拦截》（https://law.justia.com/cases/federal/district-courts/new-york/nysdce/1:2024cv01515/616536/127/）。博尔登表示，对于资源有限的小型新闻编辑室来说，与这些AI公司争取补偿的感觉如同“大卫与歌利亚”，尤其是OpenAI有望进行美国历史上最有价值的首次公开募股之一（https://www.sfgate.com/business/article/openai-files-confidential-sec-paperwork-for-ipo-22296676.php）。博尔登告诉SFGATE，他对多个组织在这一努力中联合起来感到乐观。博尔登表示，除了让出版商为其作品获得补偿之外，随着人工智能变得更加强大，版权法需要加强以保护地方新闻和记者。他补充说，人工智能开发者还应与出版商进行持续讨论，探讨如何建立一个公平的信息环境。 “这些模型变得越来越强大，它们将继续发展，我们确实需要确保制定标准，以便某人生成和拥有的作品不会在未经许可的情况下被拿走，并以完全有利于另一家公司的方式被重复使用，”博尔登说。文章继续（广告下方） 2026年6月29日马修·布朗是SFGATE的科技记者。此前，他是Open Vallejo的调查记者，报道警察不当行为、地方政府腐败和公共安全。他还通过南加州大学健康新闻中心被选为2026年加州健康公平研究员。当他不埋头查阅公共记录时，你可以在加州各地徒步和露营时找到他。

超过20家出版商起诉OpenAI和微软，指控其使用其内容训练ChatGPT

相似文章

更多AI技术诉讼 - 集体诉讼

《纽约时报》抨击微软为OpenAI构建侵犯版权的超级计算机

OpenAI 与新闻业

据报道，OpenAI 曾考虑就苹果 ChatGPT 交易采取法律行动

OpenAI违反了加拿大隐私法，联邦和省级监管机构指出

提交意见反馈