xAI Grok 推 Custom Voices:2 分鐘克隆、雙階段身分驗證
xAI 5 月 2 日於官方部落格推出 Grok Custom Voices 功能,使用者只需在 xAI 控制台錄製約 1 分鐘的自然語音、系統會在 2 分鐘內處理完成、產出可用於 TTS 與 Voice Agent API 的客製聲音模型。同步推出的還有 Grok 4.3 模型、以及彙整全部聲音資源的 Voice Library 介面。Custom Voices 並設計雙階段身分驗證機制、防止克隆他人聲音。
功能:1 分鐘錄音、2 分鐘生成、整合 TTS 與 Voice Agent API
使用者在 xAI 控制台錄製約 1 分鐘的自然語音、後台流程依序完成:(1)身分驗證、(2)語音處理、(3)模型產出。整體 2 分鐘內可拿到可用的聲音模型。Custom Voices 繼承所有 TTS 能力、包含 speech tags(語音標籤)、多語輸出、以及 REST 與 WebSocket 串流;可直接搭配 xAI 的 TTS 端點或 Voice Agent API 用於即時對話 agent。
同步推出的 Voice Library 是 xAI 控制台中統一管理聲音資源的介面、可瀏覽、預覽、管理使用者自製與預建的所有聲音、避免分散在多個介面。預建聲音庫提供 80 種以上聲音、支援 28 種語言。
雙階段身分驗證:防止克隆他人聲音
Custom Voices 在語音生成前設置兩道身分驗證關卡:第一道、使用者朗讀一段驗證句、系統即時轉錄該段語音;第二道、系統從驗證句與完整錄音中分別計算 speaker embedding(說話者特徵向量)、比對兩者是否屬於同一人。只有兩階段都通過、才會進入聲音模型產出流程。
xAI 明確聲明:使用者無法用既有錄音檔克隆聲音、也無法克隆他人聲音。這套設計排除「拿到他人公開演講錄音直接複製」的使用情境、把克隆聲音的範圍限縮在「使用者本人即時錄製」這一個入口。對於關注 AI 語音生成濫用議題(如電話詐騙、未經授權配音)的觀察者而言、這套機制是 xAI 對防偽議題的具體回應。
後續觀察:與 Grok 4.3 同步推出、Voice Library 擴增節奏
Custom Voices 與 Grok 4.3 模型同日推出、xAI 將「模型升級 + 語音工具線完整化」綁在同一波發表。下一個觀察點是 Voice Library 預建聲音庫從 80 種往上擴增的節奏、以及 28 語言版圖能否進一步覆蓋繁體中文等小語種;另一個觀察點是 Voice Agent API 的具體採用案例公開、特別是客服自動化、podcast 錄製、多語客戶服務等場景的整合範例。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。


