百億新創 Thinking Machines 發表即時互動 AI 模型，主打「邊說邊聽邊作業」

Crumax

2026/5/12

由前 OpenAI 前高層 Mira Murati 與 John Schulman 共同創辦、百億美元估值的人工智慧新創公司 Thinking Machines，週二推出首個能「邊說邊聽」的全雙工 AI 模型預覽版，延遲低至 0.4 秒，挑戰現有人機即時互動模式。

（輝達注資 Thinking Machines Lab 部署 Vera Rubin 提升前沿模型效能）

Table of Contents

Thinking Machines 新模型：打破輪流說話的舊模式

現有所有主流 AI 模型，運作方式都是「使用者輸入，模型等待，然後回應」。前 OpenAI 技術長 Mira Murati 與 OpenAI 共同創辦人 John Schulman 認為這種輪流回覆的過程就像傳訊息，並不是真正的對話。如今兩人聯手創立的 Thinking Machines Lab，於 5 月 11 日正式發表全新「互動模型（Interaction Models）」的研究預覽版，試圖從根本上改變這個現狀。

廣告 - 內文未完請往下捲動

People talk, listen, watch, think, and collaborate at the same time, in real time. We’ve designed an AI that works with people the same way.

We share our approach, early results, and a quick look at our model in action.https://t.co/AFJZ5kH7Ku pic.twitter.com/uxl1InS6Ay

— Thinking Machines (@thinkymachines) May 11, 2026

Thinking Machines 指出，當前 AI 模型以單執行緒感知現實：使用者沒說完，模型只能等待；模型沒生成完，感知就凍結。這種設計成為人機協作的瓶頸，讓人無法像與真人溝通般自然流暢地與 AI 協作。

兩人相信，解法不在於用外部元件修補舊架構，而是從頭訓練一個原生支援即時互動的模型。

全雙工架構：能一心二用的 AI 系統

Thinking Machines 發布的模型命名為 TML-Interaction-Small，是一個擁有 2,760 億參數、實際運作啟動 120 億參數的混合專家（MoE）架構模型。該系統以 200 毫秒為單位，持續交錯處理輸入與生成輸出，不設定任何人為的輪次邊界，真正實現所謂「全雙工（Full Duplex）」互動，就如同打電話，而非傳訊息。

系統採用雙模型設計：「互動模型」負責即時對話、接話與回應；「背景模型」則在後台非同步處理複雜推理、網路搜尋與工具呼叫，再將結果無縫融入進行中的對話。這使 AI 能夠在說話或聆聽的同時，也悄然完成被指派的搜尋或生成圖表任務。

基準測試：全面超越 OpenAI 與 Google

公告指出，在衡量 AI 互動品質的標準測試 FD-bench 中，TML-Interaction-Small 的換話延遲為 0.40 秒，接近人類自然對話的反應速度，遠優於 Google Gemini-3.1-flash-live 的 0.57 秒，以及 GPT-realtime-2.0 的 1.18 秒。

來到該團隊專為新型互動能力所設計的自有測試，在「時間感知（TimeSpeak）」任務中，TML-Interaction-Small 正確率達 64.7%，GPT-realtime-2.0 僅有 4.3%；在「語音觸發」任務（CueSpeak）中，前者達 81.7%，後者僅 2.9%；在「視覺計數」任務（RepCount-A）中，前者達 35.4%，後者幾乎為零（1.3%）。

Thinking Machines 指出，現有任何商業模型都無法有意義地完成這些任務，包括 OpenAI 與 Google 的思考版（thinking）高階模型。