xAI Grok 推 Custom Voices：2 分鐘克隆、雙階段身分驗證

Elponcrab

2026/5/3

xAI 5 月 2 日於官方部落格推出 Grok Custom Voices 功能，使用者只需在 xAI 控制台錄製約 1 分鐘的自然語音、系統會在 2 分鐘內處理完成、產出可用於 TTS 與 Voice Agent API 的客製聲音模型。同步推出的還有 Grok 4.3 模型、以及彙整全部聲音資源的 Voice Library 介面。Custom Voices 並設計雙階段身分驗證機制、防止克隆他人聲音。

Table of Contents

功能：1 分鐘錄音、2 分鐘生成、整合 TTS 與 Voice Agent API

使用者在 xAI 控制台錄製約 1 分鐘的自然語音、後台流程依序完成：（1）身分驗證、（2）語音處理、（3）模型產出。整體 2 分鐘內可拿到可用的聲音模型。Custom Voices 繼承所有 TTS 能力、包含 speech tags（語音標籤）、多語輸出、以及 REST 與 WebSocket 串流；可直接搭配 xAI 的 TTS 端點或 Voice Agent API 用於即時對話 agent。

同步推出的 Voice Library 是 xAI 控制台中統一管理聲音資源的介面、可瀏覽、預覽、管理使用者自製與預建的所有聲音、避免分散在多個介面。預建聲音庫提供 80 種以上聲音、支援 28 種語言。

廣告 - 內文未完請往下捲動

雙階段身分驗證：防止克隆他人聲音

Custom Voices 在語音生成前設置兩道身分驗證關卡：第一道、使用者朗讀一段驗證句、系統即時轉錄該段語音；第二道、系統從驗證句與完整錄音中分別計算 speaker embedding（說話者特徵向量）、比對兩者是否屬於同一人。只有兩階段都通過、才會進入聲音模型產出流程。

xAI 明確聲明：使用者無法用既有錄音檔克隆聲音、也無法克隆他人聲音。這套設計排除「拿到他人公開演講錄音直接複製」的使用情境、把克隆聲音的範圍限縮在「使用者本人即時錄製」這一個入口。對於關注 AI 語音生成濫用議題（如電話詐騙、未經授權配音）的觀察者而言、這套機制是 xAI 對防偽議題的具體回應。

後續觀察：與 Grok 4.3 同步推出、Voice Library 擴增節奏

Custom Voices 與 Grok 4.3 模型同日推出、xAI 將「模型升級 + 語音工具線完整化」綁在同一波發表。下一個觀察點是 Voice Library 預建聲音庫從 80 種往上擴增的節奏、以及 28 語言版圖能否進一步覆蓋繁體中文等小語種；另一個觀察點是 Voice Agent API 的具體採用案例公開、特別是客服自動化、podcast 錄製、多語客戶服務等場景的整合範例。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。