AI 人工智慧產品技術

Google 推出 Gemini 3.1 Flash TTS：支援 70 種語言與場景導演，AI 語音更自然

Elponcrab

2026/4/16

Google AI 開發者關係負責人 Logan Kilpatrick 於 4 月 15 日宣布推出 Gemini 3.1 Flash TTS — Google 最新的文字轉語音模型。這款模型支援 70 種語言、場景導演（scene direction）、說話者級別的精細控制與音訊標籤，目前已在 Google AI Studio 的音訊 playground 和 Gemini API 中開放使用。

Table of Contents

四大核心功能

Gemini 3.1 Flash TTS 相較於前代有四項顯著升級：

場景導演（Scene Direction）— 可以為語音設定情境，例如「在嘈雜的咖啡廳中低聲說話」或「興奮地宣布好消息」，模型會根據場景調整語調、語速和情緒
說話者級別控制（Speaker-Level Specificity）— 在多角色對話中，可以為每個角色設定不同的聲音特徵
音訊標籤（Audio Tags）— 支援在文本中插入音效指令，控制停頓、語氣變化等細節
70 種語言支援 — 大幅擴展多語言覆蓋，包含中文

更自然、更有表現力的聲音

Google 強調這款模型在語音自然度上的進步。傳統 TTS 模型的輸出常被批評為「聽起來像 AI」，Gemini 3.1 Flash TTS 試圖透過更豐富的韻律變化和情緒表達來縮小與人類語音的差距。Kilpatrick 指出，從 Gemini 2.5 到 3.1 的進步「非常顯著」。

廣告 - 內文未完請往下捲動

開發者如何使用

開發者可透過兩種方式使用：

Google AI Studio 音訊 Playground — 直接在網頁介面中測試和預覽語音效果
Gemini API — 整合至應用程式中，用於語音助理、有聲書、Podcast 自動生成、多語言客服等場景

Gemini 產品線持續擴張

Flash TTS 是 Gemini 3.1 系列近期密集發布的一環。此前 Google 已推出 Gemini Robotics ER 1.6（機器人視覺推理）、Tab Tab Tab（Vibe Coding prompt 補全）和設計預覽等功能。Google 正在將 Gemini 從「聊天模型」擴展為涵蓋文字、語音、視覺、機器人的全模態 AI 平台。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

Gemini Google TTS

鏈新聞

衍伸閱讀