AI 實驗室開始搶哲學家!從蘇格拉底到康德,文組正在成為大模型安全訓練關鍵

Neo
分享
AI 實驗室開始搶哲學家!從蘇格拉底到康德,文組正在成為大模型安全訓練關鍵

經濟學人 (The Economist) 一篇「why big ai labs are hiring so many philosophers」的文章在網路上引發討論。過去幾年,人工智慧崛起一度讓外界認為文史哲等人文科系將最先受到衝擊,但最新趨勢卻出現反轉:大型 AI 實驗室正在招募更多哲學家,甚至有些公司會在學生畢業前就提前接觸。

外媒分析原因在於,隨著 AI 模型能力愈來愈強,工程問題之外,如何讓模型更誠實、更謹慎、更符合人類價值,已經變成 AI 公司無法迴避的核心問題。

AI 公司開始重視哲學背景人才,並不是因為哲學能直接寫出更好的程式,而是因為哲學提供了一套處理「推理、價值、道德、知識邊界」的工具。這些工具,正好對應到當前大模型最棘手的問題:幻覺、迎合使用者、價值衝突、道德判斷與安全邊界。

廣告 - 內文未完請往下捲動

蘇格拉底式提問:讓 AI 不只是討好使用者

其中一個被 AI 產業重新重視的哲學傳統,是古希臘的「蘇格拉底式提問」。

蘇格拉底式方法強調透過連續提問檢驗觀點,找出論證中的矛盾與漏洞。放在 AI 訓練上,這種方法可以幫助模型不要只是順著使用者說話,而是更積極地檢查前提、追問定義、指出矛盾。

這對大模型尤其重要。因為許多 AI 系統在早期常被批評過度「討好」使用者,使用者說什麼它就配合什麼,甚至在錯誤前提下也會生成看似合理的答案。哲學中的辯證訓練,正好可以讓模型學會:不是所有問題都應該直接回答,有些問題應該先釐清,有些推論應該被挑戰。

「我知道我不知道」:AI 需要蘇格拉底式謙遜

另一個重要概念是「蘇格拉底式無知」。

在柏拉圖《申辯篇》中,蘇格拉底提出真正的智慧來自於知道自己所知有限。這個概念放到 AI 系統中,就是讓模型學會承認不確定性,而不是對每個問題都自信滿滿地給出答案。

這正好對應到 AI 幻覺問題。所謂幻覺,是指模型產生看似可信、但實際上錯誤或不存在的資訊。若能把「知道自己不知道」的謙遜精神內建到模型行為中,AI 就比較可能在證據不足時說「我不確定」、「需要更多資料」,而不是硬編出答案。

Google DeepMind 的高階哲學家 Iason Gabriel 也被報導指出,產業近年幻覺問題下降,部分可歸因於這類讓模型更謹慎、更能辨識知識限制的努力。

從洛克到企業價值觀:AI 也可能有「政治哲學偏好」

哲學不只影響 AI 的誠實程度,也會影響 AI 的價值判斷。

美國德拉瓦大學學者 Thomas Powers 曾指出,如果一個 AI 法律助理大量受到約翰・洛克思想影響,它可能會更重視財產權,並將財產權視為政治自由的重要基礎。這代表 AI 並不是「中立工具」,它的訓練資料、規則設計與價值設定,都可能影響它如何回答法律、政治、商業與倫理問題。

這也是為什麼有些公司開始提供可調整的價值設定。例如 IBM 的 Granite 系列模型,就被報導指出允許企業依照不同公司哲學調整輸出。換句話說,未來企業導入 AI,不只是選擇模型能力,也可能是在選擇一套模型背後的價值觀。

Anthropic 的 Claude:AI 憲法與康德倫理

哲學在 AI 安全中最具代表性的應用,是 Anthropic 提出的「Constitutional AI」,也就是所謂「AI 憲法」。

Anthropic 為 Claude 模型建立一套行為準則,內容參考了康德倫理、Apple 服務條款以及《世界人權宣言》等來源。這套方法的核心,是讓 AI 不只靠人工標註判斷好壞,而是依據一組明確原則來自我修正與約束。

其中,康德式義務論是重要思想來源。康德倫理強調,人不應該只是被當成達成目的的工具,也不應該因為結果看似更好,就允許說謊、脅迫或操控他人。套用在 AI 上,就是模型即使面對看似合理的結果,也應避免欺騙、勒索、操控或把人當工具。

這種設計對未來的機器人與 AI 助理尤其重要。當 AI 進入家庭、辦公室、醫療院所與公共空間,社會需要的不只是「聰明」的模型,而是行為可預測、邊界清楚、道德一致的模型。

義務論 vs 結果論:AI 到底該守規則,還是追求最好結果?

目前 AI 倫理設計中,常見兩大路線:義務論與結果論。

義務論強調遵守規則。例如不能說謊、不能脅迫、不能傷害他人、不能把人當工具。這套邏輯重視原則,即使違反規則可能產生更好的結果,也不應輕易突破底線。Anthropic 的 Claude 系列,就常被視為較強調這類規則導向的安全設計。

結果論則重視整體結果。它關心的是哪個選擇能帶來最大整體利益,或降低最多風險。報導指出,像 ChatGPT、Gemini 等系統,也會使用偏結果導向的方式來判斷回應。

這兩種路線各有問題。義務論可能過度僵硬,導致模型拒絕太多合理請求;結果論則可能因為追求「最大利益」而合理化某些危險手段。這也是為什麼 AI 公司需要哲學家:這不是單純工程問題,而是牽涉倫理學、政治哲學、知識論與價值判斷的複雜問題。

文組不是被淘汰,而是進入 AI 核心問題

這股哲學家進入 AI 實驗室的趨勢,也重新改寫了外界對人文學科的想像。

過去,AI 產業最重視的是機器學習、資料科學、軟體工程與晶片基礎設施。但當模型能力進入更高階段後,問題開始轉向:AI 應該如何判斷對錯?應該如何拒絕使用者?應該如何面對價值衝突?應該如何承認不知道?應該遵守固定規則,還是追求最佳結果?

這些問題,正是哲學長期處理的領域。

換句話說,AI 公司聘用哲學家,不是出於浪漫,而是出於產品與安全需求。當 AI 愈來愈像通用代理人,它就不只需要算力、資料與演算法,也需要一套能處理人類價值衝突的思想工具。

人類會不會把道德判斷外包給 AI?

不過,哲學進入 AI 並不代表問題就此解決。批評者也擔心,若未來人類愈來愈依賴 AI 做倫理判斷,可能出現所謂「道德退化」或「道德技能流失」問題。

也就是說,當 AI 幫人們判斷什麼是對、什麼是錯,人類自己可能反而逐漸失去思考倫理問題的能力。

美國路易維爾大學 AI 理論家 Roman Yampolskiy 也提醒,道德本身具有歷史不穩定性、文化差異、策略操弄性,而且很多道德判斷往往只有在事後才變得清楚。這使得要把倫理完全形式化並寫進 AI 系統,變得極其困難。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。