AI語言模型蜜月期已過！GPT系列產品品質正在走下坡嗎？

Crumax

2023/7/20

GPT-4 在 6 月份所釋出的更新版本，其品質受到數千位付費用戶的批評與指責，更有研究論文指出 GPT 的發展與體驗隨時間推進，而變得更糟。但不論是對其表現行為優劣的定義、或是功能退化的證據，事實是還有更多細節需要被解讀。

Table of Contents

GPT 產品越更新越糟？

近期，一篇探討有關「ChatGPT 的行為是否隨時間改變」的論文被廣泛流傳並討論，該內容就數據結果暗示，GPT-4 自推出以來就持續在退化。

論文對 GPT-3.5 及 GPT-4 進行了四項任務的測試，包括數學問題 (質數檢查) 、回應敏感問題、生成代碼及視覺推理。資料顯示，GPT-4 在數學問題及代碼生成任務的回答品質上發生改變，而數學問題更是為人津津樂道。

新年快樂！下方有限時紅包可以領取

可以明顯看見，數學問題就回答的準確度而言，在 GPT-4 及 GPT-3.5 中產生顯著變化，前者退化而後者進步。研究指出，GPT-4 在進行所有質數判斷時，幾乎傾向猜測該數字是合數，而缺乏具邏輯性的推理結構，因此視為性能下降。

而在代碼生成的測試中，論文發現 6 月的 GPT-4 與 3 月的版本相比，在生成及修正代碼時，較未能全面評估代碼的正確性，容易使得生成的代碼無法直接執行。

部分用戶反應一致

一些用戶在推特上表示，GPT 系列產品品質在近期的更新後，單就回答問題的正確率而言，其功能的確已不再像以往這麼強大。

OpenAI 開發人員 Logan.GPT 也公開回應眾多評論，向反應有關 GPT-4 使用體驗的用戶表達感謝，並著手調查。

論文評估標準引起質疑

不過以上論點也被質疑，將語言訓練模型的功能及表現行為的好壞定義太過簡易化，其內容仍需要被討論。

一篇來自 Substack 的文章提出主張：「語言模型在特定任務上的表現行為有所變化，並不代表其能力有所下降。」

撰文者表示，在聊天機器人的情境中，能力是指模型理解及處理語言的能力，而行為是指模型如何根據不同的提示及問題來回應。

他針對數學問題說明，GPT-4 的確沒有就「關聯思考提示 (Chain of Thought, COT)」進行推理。但實際上，四個模型都同樣糟，都僅是根據他們更新後被校正的方式進行猜測。

同時他也認為，GPT-4 在數學問題上的行為變化，也可能是由於測試數據的選擇 (近 500 則問題都僅測試質數) 及評估方式的不當所導致的，而不是由於其能力的退化。

文章最後表明：

總而言之，該論文也告訴我們，將人為設計的指標或評估標準，套用於討論人工智慧語言訓練模型的性能變化是多麼困難。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

ChatGPT GPT-4 OpenAI

155 萬美元獎金

衍伸閱讀