ETHTaipei｜區塊鏈如何驗證 AI 資訊的真實性

Kyle

2024/3/22

ETHTaipei 2024 進入第二天，以太坊基金會前研究員 Cathie 針對人工智慧模型與輸出資訊的驗證真實性議題，介紹了零知識證明機器學習 (zkML)、詐欺證明機器學習 (opML) 的潛力，也提出從代幣經濟面向提出改善開源模型的開發環境方法，期待降低人工智慧資訊驗證的困難度。

Table of Contents

AI 產業兩大困境

人工智慧 (AI) 目前發展至今，如何證明數據輸入、模型、輸出正確性，對於未來應用越來越重要，例如 OpenAI 被詬病的問題之一即是模型無開源與輸入數據不公開，對於數位創作版權與資訊真實性問題層出不窮，受到外界的許多批評。

驗證某個私有模型輸出結果的正確性、驗證私有數據的有效性同時保有隱私、如何在不公開私有模型的前提下驗證效能？其實一直是機器學習模型發展的困境。

其實上述問題可以歸結為：

目前傳統的解決方式似乎只有將模型開源才能減緩這個問題，但開源將不利於模型商業化與開發，且仍不能 100% 驗證輸出的正確性。

因此不論是直接驗證 AI 資訊的真實性，或是將模型開源後的發展策略，目前 Web2 技術似乎都沒有良好的解決方案。而 Cathie 指出區塊鏈有機會可以幫助到 AI 產業解決這兩個問題。

Cathie 表示已經有不少專案嘗試將機器學習結合區塊鏈與密碼學等技術，以驗證「模型本身與輸入輸出」的資訊正確性。將證明資料上傳至區塊鏈，確保不可串改且所有人皆可存取，提供公平驗證資訊的機制。

目前的技術大致可以分為兩類：

零知識證明機器學習 (zero-knowledge machine learning, zkML)：將機器學習模型相關的資訊生成零知識證明，上鏈至區塊鏈提供所有人驗證。
詐欺證明機器學習 (optimistic machine learning, opML)：將機器學習模型相關的資訊生成詐欺證明，上鏈至區塊鏈提供所有人檢視，發現資訊不實可以提出挑戰。

兩者技術分別有獨特優勢與缺點。

zkML 需要將資訊生成零知識證明，需要耗費較多的資源與成本，因此目前僅能適用於規模較小的模型，例如 Decision forest、nanoGPT、GPT-2 等模型，不過當證明生成完成上鏈後，可以馬上完成驗證提供快速的最終性。

opML 則是將資訊上傳至區塊鏈後，需要等待挑戰期結束後才可以有最終性，也無法對隱私資訊有良好保護，最重要的是驗證安全性也相較 zkML 低。不過 opML 可以將其結合任何大小的模型，例如 Stable Diffusion、LLaMA，可用性更高。

而除了上述兩種方式，Cathie 還提出近期研究，結合兩者優勢的新模式 — 樂觀隱私保護 AI (optimistic privacy-preserving AI, OPP/AI)，可以在提供類似安全性與隱私的設計下降低模型驗證成本。

除了思考如何在保有模型與數據隱私的情況下驗證的方法之外，區塊鏈也可以提供開源模型的所有權代幣化，提供經濟手段期待看到更多模型開源。

具體上，Cathie 提出兩個 ERC，嘗試解決這個問題：

ERC-7641：收入分潤代幣 (Intrinsic RevShare Token)。可以將對應的資金池中的資金自動分潤至代幣持有者。
ERC-7007：藉由驗證確保模型擁有者銷售模型與共享利益。將支援 zkML 與 opML，在驗證人工智慧生成內容 (AIGC) 的正確性的同時，可以累積給與開發者的收益。

Cathie 將上述機制結合並稱為 IMO (initial model offering) 機制，是未來 ORA 協議的發展重心。