Google 推 Gemini 3.5 Live Translate:70+ 語言即時語音翻譯

Elponcrab
分享
Google 推 Gemini 3.5 Live Translate:70+ 語言即時語音翻譯

Google 於 2026 年 6 月 9 日推出 Gemini 3.5 Live Translate 即時語音翻譯模型,公開預覽版同步上線 Gemini Live API、Google AI Studio、Google Meet(企業端私人預覽)以及全球 Android/iOS 版的 Google Translate。模型支援 70 種以上語言、可組合超過 2,000 種語對,並透過串流方式處理語音,不再採用「等說話者講完再翻譯」的逐輪模式。

70+ 語言、自動偵測且保留語調

Gemini 3.5 Live Translate 為語音轉語音(speech-to-speech)模型,可自動偵測 70 種以上語言、不需手動切換。Google 表示模型「保留說話者的語調、節奏與音高」(preserves speakers’ intonation, pacing and pitch),輸出聲音聽起來接近原說話者。模型可處理多語混合輸入,並對嘈雜環境具有耐受性。

翻譯延遲表現上,模型採連續串流產生語音,不需等說話者結束句子才開始翻譯,Google 形容輸出「整段對話僅落後說話者數秒,流暢無斷斷續續」。Google 未公布具體毫秒延遲數據。

廣告 - 內文未完請往下捲動

跨 Google 多項產品同步上線

本次上線涵蓋四條產品線:開發者可透過 Gemini Live API 與 Google AI Studio 接取(公開預覽);企業 Google Meet 用戶獲得跨 2,000+ 語對組合的會議翻譯(私人預覽,本月開始);一般消費者可在 Android 與 iOS 上的 Google Translate 立即使用,無需註冊或排隊。

合作案例方面,Google 提及東南亞叫車平台 Grab 已將 Live Translate 整合進駕駛與乘客語音通話、每月處理約 1,000 萬通電話。

所有輸出音訊嵌入 SynthID 水印

所有 Live Translate 產出的語音都嵌入 SynthID 浮水印—這是 Google 開發的不可感知音訊浮水印技術,可在事後辨識 AI 生成內容。Google 將其定位為防止生成式 AI 被用於假訊息或詐騙的基礎防護機制。本次發布未提及任何基準分數,僅描述定性表現。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。