AI語言模型蜜月期已過!GPT系列產品品質正在走下坡嗎?

Crumax
分享
AI語言模型蜜月期已過!GPT系列產品品質正在走下坡嗎?

GPT-4 在 6 月份所釋出的更新版本,其品質受到數千位付費用戶的批評與指責,更有研究論文指出 GPT 的發展與體驗隨時間推進,而變得更糟。但不論是對其表現行為優劣的定義、或是功能退化的證據,事實是還有更多細節需要被解讀。

GPT 產品越更新越糟?

近期,一篇探討有關「ChatGPT 的行為是否隨時間改變」的論文被廣泛流傳並討論,該內容就數據結果暗示,GPT-4 自推出以來就持續在退化。

論文對 GPT-3.5 及 GPT-4 進行了四項任務的測試,包括數學問題 (質數檢查) 、回應敏感問題、生成代碼及視覺推理。資料顯示,GPT-4 在數學問題及代碼生成任務的回答品質上發生改變,而數學問題更是為人津津樂道

廣告 - 內文未完請往下捲動

可以明顯看見,數學問題就回答的準確度而言,在 GPT-4 及 GPT-3.5 中產生顯著變化,前者退化而後者進步。研究指出,GPT-4 在進行所有質數判斷時,幾乎傾向猜測該數字是合數,而缺乏具邏輯性的推理結構,因此視為性能下降。

而在代碼生成的測試中,論文發現 6 月的 GPT-4 與 3 月的版本相比,在生成及修正代碼時,較未能全面評估代碼的正確性,容易使得生成的代碼無法直接執行。

部分用戶反應一致

一些用戶在推特上表示,GPT 系列產品品質在近期的更新後,單就回答問題的正確率而言,其功能的確已不再像以往這麼強大。

OpenAI 開發人員 Logan.GPT 也公開回應眾多評論,向反應有關 GPT-4 使用體驗的用戶表達感謝,並著手調查。

論文評估標準引起質疑

不過以上論點也被質疑,將語言訓練模型的功能及表現行為的好壞定義太過簡易化,其內容仍需要被討論。

一篇來自 Substack 的文章提出主張:「語言模型在特定任務上的表現行為有所變化,並不代表其能力有所下降。」

撰文者表示,在聊天機器人的情境中,能力是指模型理解及處理語言的能力,而行為是指模型如何根據不同的提示及問題來回應。

他針對數學問題說明,GPT-4 的確沒有就「關聯思考提示 (Chain of Thought, COT)」進行推理。但實際上,四個模型都同樣糟,都僅是根據他們更新後被校正的方式進行猜測。

同時他也認為,GPT-4 在數學問題上的行為變化,也可能是由於測試數據的選擇 (近 500 則問題都僅測試質數) 及評估方式的不當所導致的,而不是由於其能力的退化。

文章最後表明:

總而言之,該論文也告訴我們,將人為設計的指標或評估標準,套用於討論人工智慧語言訓練模型的性能變化是多麼困難。