ETHTaipei|區塊鏈如何驗證 AI 資訊的真實性

Kyle
分享
ETHTaipei|區塊鏈如何驗證 AI 資訊的真實性

ETHTaipei 2024 進入第二天,以太坊基金會前研究員 Cathie 針對人工智慧模型與輸出資訊的驗證真實性議題,介紹了零知識證明機器學習 (zkML)、詐欺證明機器學習 (opML) 的潛力,也提出從代幣經濟面向提出改善開源模型的開發環境方法,期待降低人工智慧資訊驗證的困難度。

AI 產業兩大困境

如何驗證資訊?

人工智慧 (AI) 目前發展至今,如何證明數據輸入、模型、輸出正確性,對於未來應用越來越重要,例如 OpenAI 被詬病的問題之一即是模型無開源與輸入數據不公開,對於數位創作版權與資訊真實性問題層出不窮,受到外界的許多批評。

(媒體與出版業的危機?紐約時報起訴OpenAI及微軟大規模侵犯版權)

廣告 - 內文未完請往下捲動

驗證某個私有模型輸出結果的正確性、驗證私有數據的有效性同時保有隱私、如何在不公開私有模型的前提下驗證效能?其實一直是機器學習模型發展的困境。

其實上述問題可以歸結為:

  • 可驗證性
  • 保有輸入的隱私性
  • 保有模型的隱私性

如何確保開源模型收益?

目前傳統的解決方式似乎只有將模型開源才能減緩這個問題,但開源將不利於模型商業化與開發,且仍不能 100% 驗證輸出的正確性。

(轟只顧賺錢,馬斯克起訴OpenAI、Sam Altman,要求回歸開源)

因此不論是直接驗證 AI 資訊的真實性,或是將模型開源後的發展策略,目前 Web2 技術似乎都沒有良好的解決方案。而 Cathie 指出區塊鏈有機會可以幫助到 AI 產業解決這兩個問題。

區塊鏈如何解決 AI 驗證議題

潛在解方:將證明資料上傳至區塊鏈

Cathie 表示已經有不少專案嘗試將機器學習結合區塊鏈與密碼學等技術,以驗證「模型本身與輸入輸出」的資訊正確性。將證明資料上傳至區塊鏈,確保不可串改且所有人皆可存取,提供公平驗證資訊的機制。

目前的技術大致可以分為兩類:

  • 零知識證明機器學習 (zero-knowledge machine learning, zkML):將機器學習模型相關的資訊生成零知識證明,上鏈至區塊鏈提供所有人驗證。
  • 詐欺證明機器學習 (optimistic machine learning, opML):將機器學習模型相關的資訊生成詐欺證明,上鏈至區塊鏈提供所有人檢視,發現資訊不實可以提出挑戰。

兩者技術分別有獨特優勢與缺點。

zkML 需要將資訊生成零知識證明,需要耗費較多的資源與成本,因此目前僅能適用於規模較小的模型,例如 Decision forest、nanoGPT、GPT-2 等模型,不過當證明生成完成上鏈後,可以馬上完成驗證提供快速的最終性。

opML 則是將資訊上傳至區塊鏈後,需要等待挑戰期結束後才可以有最終性,也無法對隱私資訊有良好保護,最重要的是驗證安全性也相較 zkML 低。不過 opML 可以將其結合任何大小的模型,例如 Stable Diffusion、LLaMA,可用性更高。

而除了上述兩種方式,Cathie 還提出近期研究,結合兩者優勢的新模式 — 樂觀隱私保護 AI (optimistic privacy-preserving AI, OPP/AI),可以在提供類似安全性與隱私的設計下降低模型驗證成本。

潛在解方:代幣化開源模型之所有權

除了思考如何在保有模型與數據隱私的情況下驗證的方法之外,區塊鏈也可以提供開源模型的所有權代幣化,提供經濟手段期待看到更多模型開源。

具體上,Cathie 提出兩個 ERC,嘗試解決這個問題:

  • ERC-7641:收入分潤代幣 (Intrinsic RevShare Token)。可以將對應的資金池中的資金自動分潤至代幣持有者。
  • ERC-7007:藉由驗證確保模型擁有者銷售模型與共享利益。將支援 zkML 與 opML,在驗證人工智慧生成內容 (AIGC) 的正確性的同時,可以累積給與開發者的收益。

Cathie 將上述機制結合並稱為 IMO (initial model offering) 機制,是未來 ORA 協議的發展重心。

IMO 模型

區塊鏈幫助人工智慧產業發展

Cathie 表示不一定是從 AI 如何幫助區塊鏈出發,現有情況更可能是區塊鏈幫助 AI 驗證資訊真實性。

雖然目前仍有許多技術在開發階段 (例如 opML 發展較短暫),或者是實作上仍有許多的困難點需要克服 (例如如何讓人們願意在使用開源模型時自願套用分潤模型並付費),但是卻也讓市場看到 AI 與區塊鏈落地結合的可能性與方向,而不再只是紙上談兵。