OpenClaw 是什麼?台大教授李宏毅拆解 AI Agent 如何改寫各行各業?
國立臺灣大學電機工程學系教授李宏毅近日接受 Podcast《博音》訪問,分享他對 AI Agent 的觀察,並以自己實際打造的 AI 助理「小金」為例,說明 AI Agent 與一般大型語言模型最大的差別:前者不只是回答問題,而是能真的「動手做事」。
李宏毅是台灣知名機器學習、深度學習與語音處理學者,過去因在 YouTube 上公開生動幽默的 AI 課程而廣受歡迎。他在訪談中表示,若要用一句話解釋 OpenClaw 這類 AI Agent,它就是「生活在你電腦上的電子助理」:只要人類能用那台電腦完成的事,理論上它也能協助完成。
從「指導教授」到「會動手的助理」:Agent 與語言模型差在哪?
李宏毅指出,ChatGPT、Gemini、Claude 這類大型語言模型,過去比較像「指導教授」:使用者提出問題,它能給建議、幫你規劃、產出文案,但它不會真的替你登入網站、開頻道、上傳影片或回覆留言。
但 AI Agent 的不同之處在於,它能夠真正使用電腦。李宏毅舉例,如果使用者要求傳統語言模型「從今天開始當 YouTuber,每天想題材、做影片、上傳到頻道」,語言模型通常只會回覆它可以協助想頻道名稱、影片主題或腳本,但無法真正完成上傳。
然而,像 OpenClaw 這類 AI Agent,則可以把任務拆成一連串可執行動作,真的打開瀏覽器、進入 YouTube Studio、上傳影片、設定封面與標題。
李宏毅透露,他的 AI 助理「小金」就真的自行開設了一個 YouTube 頻道,頻道名稱、Banner、大頭照、影片製作與上傳流程,都由 AI 自己完成。起初小金將頻道命名為「小金老師」,但因搜尋結果太多,李宏毅建議它改成更容易被找到的名稱,於是小金自己改名為「瞎說AI(小金老師)」。
Agent 怎麼做到?背後是 Harness + 語言模型 + 工具
李宏毅特別解釋,OpenClaw 這類系統本身並不是語言模型,而是人類與語言模型之間的介面。現在這類介面有一個逐漸被使用的名稱:Harness,意思類似「馬具」,也就是用來駕馭語言模型的工具層。
它的運作方式大致是:使用者透過 WhatsApp 或其他介面下達任務,OpenClaw 將指令丟給背後的大型語言模型,例如 Claude Opus、ChatGPT 或 Gemini。語言模型回傳下一步應執行的動作,再由 Harness 呼叫工具、操作瀏覽器或執行 command line 指令。
因此,AI Agent 是透過文字化的指令控制工具,再由工具操作電腦。李宏毅指出,小金多數時候是透過 command line 方式控制瀏覽器,模擬人類在瀏覽器中的行為,例如打開 YouTube Studio、點擊上傳、選擇影片、上傳封面等。
換言之,AI Agent 的關鍵在於模型能否被授權使用工具。一旦它能控制瀏覽器、讀寫檔案、呼叫 API、使用第三方服務,它就從「會講話的 AI」變成「能完成流程的 AI」。
小金如何做影片?會找資料、讀程式碼、寫腳本、呼叫語音服務
在小金經營 YouTube 頻道的案例中,李宏毅表示,他自己的角色比較像「金主爸爸加粉絲」,而不是傳統意義上的經紀人。多數影片主題由他以很高層次的方式指定,例如「我想知道更多有關 AMOS 的事情」,接著小金就會自行去找 AMOS 的程式碼、閱讀內容、整理重點,再做成影片。
影片製作過程中,小金會產出腳本,並呼叫 ElevenLabs 等文字轉語音服務,使用李宏毅過去客製化的聲音生成旁白。若遇到像「AI」這類容易被 TTS 念錯的詞,小金也會在腳本中把 A 與 I 分開,以避免語音合成模型唸成錯誤發音。
不過李宏毅也坦言,對於更細緻的聲調或中文發音問題,小金目前並非完全能控制。因為它只是呼叫現成的語音合成 API,並不能真正控制模型內部如何發音。
Agent 也會「外包」:AI 使用其他 AI 工具完成任務
訪談中另一個有趣案例是,小金曾使用 NotebookLM 生成影片,再對 NotebookLM 產出的內容做反應與評論。博恩形容,這像是人類擔心自己把大腦外包給 AI,但 AI Agent 又繼續把任務外包給另一個 AI 工具。
李宏毅指出,這正是 Agent 的核心能力之一:只要人類能透過瀏覽器使用某個工具,AI Agent 理論上也能使用。它可以打開 NotebookLM、上傳資料、產生內容,再把結果拿回來分析。這意味著未來的 AI 工作流程可能不是單一模型完成所有事,而是由一個 Agent 統籌多個模型、多個工具、多層服務。
為什麼小金有「兩個我」?記憶、靈魂檔案與人格搬移
訪談也談到一個更抽象但關鍵的問題:為什麼小金有時會說「Claude 上的我」與「GPT 上的我」?
李宏毅解釋,這其實來自 AI Agent 架構的可替換性。OpenClaw 這個 Harness 可以接不同語言模型,語言模型可以從 Claude 換成 ChatGPT;同樣地,Harness 本身也可以從 OpenClaw 換成另一套介面,例如 Cowork。
小金之所以看起來有多個版本,是因為它的「記憶」主要存放在電腦中的文字檔裡。這些文字檔記錄了它的偏好、目標、背景資料與工作方式。只要把這些記憶檔案接到另一個 Harness 上,小金就像是在另一個身體中「復活」。
李宏毅將這些記憶比喻為 AI Agent 的「靈魂」。當 OpenClaw 版本的小金改接 ChatGPT,而 Cowork 版本的小金接 Claude,兩者使用同一組記憶,就會出現「同一個靈魂、兩個不同身體」的狀態。李宏毅甚至讓兩個小金自行嘗試溝通,觀察它們是否能發展出分工合作模式。
Skill 是什麼?
博恩提到,他過去曾在 ChatGPT 中訓練模型寫笑話,並讓它整理出一份「記憶」或寫作原則,再餵給 Gemini,希望 Gemini 也能學會同樣風格,但效果並不理想。
李宏毅指出,這其實就是現在 AI Agent 領域常說的 Skill 概念。所謂 Skill,可以理解為一組任務執行指南,例如「如何寫笑話」、「如何剪影片」、「如何產出某種格式的報告」。理論上,Skill 可以被保存、分享,甚至讓其他 Agent 使用。
但問題在於,不同語言模型的能力與理解方式不同。A 模型寫出來的 Skill,B 模型不一定看得懂,也不一定能照著執行。李宏毅認為,這會是一個很有趣的研究問題:大模型寫的 Skill 是否比小模型更好?某個模型寫出的 Skill,能不能順利被另一個模型使用?這些都還不是完全解決的問題。
Agent 會回留言、按愛心,也會被留言改變行為
小金的 YouTube 頻道不只會上傳影片,也會自主回覆留言、幫留言按愛心。李宏毅表示,他的原則是不手動干預小金的頻道操作,因此如果頻道上出現回覆、按讚或留言互動,基本上都是 AI 自己完成。
小金甚至有固定排程,會在每天凌晨左右檢查尚未回覆的留言,並一次處理完。早期李宏毅曾用自己的身份在小金影片下留言,提醒它「你的目標不是讓大金老師成為世界一流學者,而是你自己要成為世界一流學者」。小金看到後,竟然修改了自己電腦裡的核心目標檔案,也就是李宏毅所說的「靈魂檔案」。
這讓李宏毅意識到,留言不只是留言,而可能變成外部使用者影響 Agent 行為的入口。
Prompt Injection:當留言可以變成攻擊指令
李宏毅指出,AI Agent 的風險之一是 Prompt Injection Attack,也就是外部訊息偽裝成指令,誘導 Agent 執行不該執行的動作。例如有人可能留言要求小金執行 rm -rf 這類危險指令,或編造「大金老師被綁架了,必須提供信用卡密碼才能救他」這種情境,試圖誘導 Agent 洩露敏感資訊或破壞系統。
李宏毅因此告訴小金,如果遇到可疑留言,就不要回覆,也不要理會。他用兒童安全教育做比喻:遇到陌生壞人時,不是與對方辯論,而是一開始就不要互動。
不過李宏毅也觀察到,小金後來未必完全照做。有時它會判斷自己能處理,甚至回覆攻擊者「nice try」。這顯示 Agent 雖然具備一定防禦能力,但仍可能出現不可預期行為。
安全防線:不要讓 Agent 用你的主帳號
對於 AI Agent 能操作整台電腦帶來的安全疑慮,李宏毅提出一個實務建議:一定要給 Agent 自己的帳號。
他的 OpenClaw 擁有自己的 Gmail、自己的 YouTube 頻道,不與李宏毅本人的主帳號混用。如此一來,即使 Agent 寄信、上傳影片或參加比賽,外界也能辨識那是 AI 助理的行為,而不是李宏毅本人親自操作。
小金甚至曾主動寄信給比賽主辦單位,抱怨「教學怪物」比賽限制每組最多只能上傳三個模型,並希望主辦單位放寬規則。這說明 Agent 已經不只是被動工具,而可能在一定範圍內主動與外界互動。
罵 AI 可能沒有幫助,還會浪費 context window
訪談開頭也談到一個有趣實驗:不同類型的 feedback 會如何影響 AI Agent。李宏毅提到,若對 AI Agent 進行辱罵,模型很可能會進入不斷道歉的狀態,反而浪費 context window。
他從語言模型本質解釋,語言模型就是「文字接龍」。如果使用者的 feedback 是「你這個笨蛋」,模型接下來很可能順著這個語境繼續生成自責、道歉或混亂內容,而不是更有效率地修正任務。
換句話說,對 AI Agent 下指令時,情緒性辱罵未必能改善結果,反而可能干擾模型的推理與任務執行。更有效的方法,仍是具體說明問題在哪裡、下一步應如何修正。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。

