Karpathy:AI 不該停在 Markdown!HTML 是未來,終局是可探索的互動式場景

Neo
分享
Karpathy:AI 不該停在 Markdown!HTML 是未來,終局是可探索的互動式場景

Andrej Karpathy 近日在 X 平台回應 Anthropic Claude Code 團隊工程師 Thariq Shihipar 的觀點,指出在向大語言模型提問時,只要在提示詞最後加上一句「請將回答以 HTML 結構呈現」,再把生成的檔案放進瀏覽器中觀看,效果往往非常好。他甚至表示,自己也曾嘗試要求 LLM 將回答做成投影片形式,同樣取得不錯成果。

(Anthropic 工程師:HTML 才是 Claude Code 最佳輸出格式、不是 Markdown)

從純文字到 HTML:AI 輸出正在從「可讀」走向「可視化」

這段發言延續了近日 AI 開發者社群對「HTML 是否比 Markdown 更適合作為 AI 輸出格式」的討論。Shihipar 此前在文章〈Using Claude Code: The Unreasonable Effectiveness of HTML〉中主張,對 Claude Code 這類 AI coding agent 來說,HTML 不只是排版格式,而是能讓 AI 回答從線性文字升級為互動文件的輸出介面。

廣告 - 內文未完請往下捲動

Karpathy 則進一步將此議題拉高到人類與 AI 的輸入、輸出介面演進。Karpathy 認為,目前多數 LLM 的預設輸出仍停留在 Markdown 階段。相較於原始文字,Markdown 已經透過標題、粗體、斜體、表格等方式改善閱讀體驗,但它本質上仍是以文字為核心的線性呈現。

在他的分類中,AI 輸出格式大致可以被看成一條演進路徑:第一階段是原始文字,閱讀成本最高;第二階段是 Markdown,也就是當前多數 AI 產品的預設格式;第三階段則是 HTML。HTML 雖然仍然是程式化產物,底層需要標籤與結構,但它能提供更彈性的圖形、版面、樣式,甚至能加入互動元素。

Markdown 讓 AI 回答「比較好讀」,但 HTML 則可能讓 AI 回答變成「可以瀏覽、可以操作、可以視覺理解」的文件。

這也是 Shihipar 先前主張 HTML 勝過 Markdown 的核心理由:HTML 可以承載 SVG 圖表、顏色編碼、CSS 樣式、警告區塊、頁內錨點、互動元件與並排比較表。對於技術文件、漏洞分析、資料視覺化、教學解釋等場景,HTML 能將原本需要讀者慢慢消化的文字資訊,轉化成一眼就能辨識層級、風險與關係的視覺文件。

Karpathy:人類偏好用語音輸入,但更偏好 AI 用視覺輸出

Karpathy 的新觀點不只是在談 HTML,而是在談 AI 介面的未來。

他指出,從輸入端來看,人類可能更偏好用語音與 AI 互動,因為說話是自然、低成本的表達方式。但從輸出端來看,人類更偏好的其實是視覺資訊,包括圖片、動畫與影片。

他的理由是,人類大腦約有三分之一用於處理視覺資訊。因此,隨著 AI 能力提升,AI 不應只把答案包裝成文字,而應該逐步走向更高密度、更直覺的視覺輸出。

這讓 HTML 的重要性變得更明確。HTML 不是終點,而可能是 AI 從文字輸出邁向視覺化輸出的過渡階段。它比 Markdown 更能表達圖像、版面與互動,但又比完全由神經網路生成的影片或模擬更穩定、更可控。

Karpathy 進一步推測,雖然相關技術目前還不存在,但長期來看,AI 輸出的終點可能會是某種由擴散模型直接生成的互動式影片或模擬內容。

也就是說,未來 AI 可能不只是「回答你一段文字」,也不是「幫你做一份 HTML 文件」,而是直接生成可互動、可探索、可動態變化的視覺場景。使用者可以在其中操作、觀看變化、理解因果關係,就像把教學影片、互動模擬與即時生成介面結合在一起。

不過,Karpathy 也承認,這裡仍有許多開放問題。尤其是如何把傳統軟體工程中精確、可驗證、可程序化的「Software 1.0」產物,例如互動模擬、前端元件、數學模型,與擴散模型生成的神經網路影像、動畫或影片結合起來,仍然沒有成熟答案。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。