Reddit 封鎖 Wayback Machine ,指控 AI 濫用訓練大型語言模型

DW
分享
Reddit 封鎖 Wayback Machine ,指控 AI 濫用訓練大型語言模型

Reddit 將限制網路檔案資料庫(Internet Archive)旗下的 Wayback Machine 存取論壇上的內容和索引,Reddit 發現有公司透過 Wayback Machine 抓取 Reddit 的歷史數據訓練 AI 大型語言模型,違反平台政策。

Reddit 發言人 Tim Rathschmidt 向 The Verge 表示他們注意到有 AI 公司違反平台政策,透過 Wayback Machine 抓取 Reddit 的資料。因此 Reddit 將逐步限制 Wayback Machine 的索引能力,未來這些第三方公司僅能存取 Reddit 主頁,而無法抓取特定貼文、留言和使用者個人頁面等內容。

Reddit 強調雖然理解網路檔案資料庫需努力保存網路內容資產的使命,但也必須保護用戶隱私與平台政策的完整性。在網路檔案資料庫能保障網站內容符合隱私規範前, Reddit 將限制 Wayback Machine 的造訪,以保障用戶利益。

廣告 - 內文未完請往下捲動

這項封鎖措施即日起開始實施,將會逐步加強。Reddit 表示已事先與 Internet Archive 溝通提前告知他們做準備。Wayback Machine 負責人 Mark Graham 回應表示他們與 Reddit 一直保持長期合作關係,將繼續就此事進行討論。

Reddit 的 AI 政策為使用者付費

這並非 Reddit 首度對資料存取施加限制,人工智慧大型語言模型(LLM)迅速發展,許多 AI 公司開始利用 Reddit 上用戶們大量的公開對話訓練語言模型。2023 年起,Reddit 對其 API 政策進行重大調整,要求第三方應用程式使用 API 需要支付費用,此舉導致多個第三方 Reddit 客戶端關閉,引起社群抗議。Reddit 表示調整的主因是為了防止 AI 公司未經授權使用其內容訓練模型。Reddit 也開始限制搜尋引擎抓取網站內容,除非第三方公司願意付費。

2024 年,Reddit 與 Google 達成協議允許使用論壇內容訓練 AI 模型與改進搜尋功能,該協議價值約 6000 萬美元,協議意味著為 AI 訓練模型的重要來源,Reddit 平台的內容可以成為商品變現。

此外,Reddit 也與 OpenAI 建立合作關係,允許使用內容,不過, 2025 年 6 月,Reddit 對另一家 AI 公司 Anthropic 提起訴訟,指控對方聲稱已停止擷取網站數據,但仍持續進行不間斷,藉此訓練 Claude 模型。

這次封鎖 Wayback Machine,突顯出 Reddit 對 AI 數據主權的重視。雖然 Reddit 長期以來被視為開放自由論壇的模範,但當平台意識到用戶內容價值升高可被量化為高價值的 AI 訓練時,也開始奪回主控權。

唉,用戶變商品嗎?

Reddit 上雖然大部分都是匿名,但平台如果開放付費讓第三方使用數據讓 AI 訓練語言模型,那又產生另外個問題,用戶的發言是一時的,但網路資料存取是永久的,用戶如果改變想法和立場,但所說言論被永久保存,不是會變得更沒有隱私權和自主權?

 

 

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。