Reddit 封鎖 Wayback Machine ，指控 AI 濫用訓練大型語言模型

2025/8/16

Reddit 將限制網路檔案資料庫（Internet Archive）旗下的 Wayback Machine 存取論壇上的內容和索引，Reddit 發現有公司透過 Wayback Machine 抓取 Reddit 的歷史數據訓練 AI 大型語言模型，違反平台政策。

Reddit 發言人 Tim Rathschmidt 向 The Verge 表示他們注意到有 AI 公司違反平台政策，透過 Wayback Machine 抓取 Reddit 的資料。因此 Reddit 將逐步限制 Wayback Machine 的索引能力，未來這些第三方公司僅能存取 Reddit 主頁，而無法抓取特定貼文、留言和使用者個人頁面等內容。

Reddit 強調雖然理解網路檔案資料庫需努力保存網路內容資產的使命，但也必須保護用戶隱私與平台政策的完整性。在網路檔案資料庫能保障網站內容符合隱私規範前， Reddit 將限制 Wayback Machine 的造訪，以保障用戶利益。

廣告 - 內文未完請往下捲動

這項封鎖措施即日起開始實施，將會逐步加強。Reddit 表示已事先與 Internet Archive 溝通提前告知他們做準備。Wayback Machine 負責人 Mark Graham 回應表示他們與 Reddit 一直保持長期合作關係，將繼續就此事進行討論。

Table of Contents

Reddit 的 AI 政策為使用者付費

這並非 Reddit 首度對資料存取施加限制，人工智慧大型語言模型（LLM）迅速發展，許多 AI 公司開始利用 Reddit 上用戶們大量的公開對話訓練語言模型。2023 年起，Reddit 對其 API 政策進行重大調整，要求第三方應用程式使用 API 需要支付費用，此舉導致多個第三方 Reddit 客戶端關閉，引起社群抗議。Reddit 表示調整的主因是為了防止 AI 公司未經授權使用其內容訓練模型。Reddit 也開始限制搜尋引擎抓取網站內容，除非第三方公司願意付費。

2024 年，Reddit 與 Google 達成協議允許使用論壇內容訓練 AI 模型與改進搜尋功能，該協議價值約 6000 萬美元，協議意味著為 AI 訓練模型的重要來源，Reddit 平台的內容可以成為商品變現。

此外，Reddit 也與 OpenAI 建立合作關係，允許使用內容，不過， 2025 年 6 月，Reddit 對另一家 AI 公司 Anthropic 提起訴訟，指控對方聲稱已停止擷取網站數據，但仍持續進行不間斷，藉此訓練 Claude 模型。

這次封鎖 Wayback Machine，突顯出 Reddit 對 AI 數據主權的重視。雖然 Reddit 長期以來被視為開放自由論壇的模範，但當平台意識到用戶內容價值升高可被量化為高價值的 AI 訓練時，也開始奪回主控權。