微軟發佈三款 AI「看、聽、說」模型,瞄準商用級 AI 企業工作流

Neo
分享
微軟發佈三款 AI「看、聽、說」模型,瞄準商用級 AI 企業工作流

繼 3 月 18 日推出影像生成模型 MAI-Image-2 後,Microsoft 在 4 月 2 日再度釋出兩款語音相關模型 MAI-Transcribe-1MAI-Voice-1,短時間內連續補齊影像與語音能力,被視為其多模態 AI 戰略的重要推進。這三款模型並非零散更新,而是從視覺生成、語音理解到語音輸出的完整拼圖,顯示微軟正試圖建立一套可直接嵌入企業工作流程的 AI 基礎能力。

微軟 MAI-Image-2 瞄準商用影像生成

3 月 18 日微軟首先推出的 MAI-Image-2,明顯將重心放在「可商用」而非單純創意生成。相較於早期偏向娛樂或實驗性質的圖像模型,MAI-Image-2 更強調輸出穩定性與語意準確度,能在複雜指令下維持構圖一致與細節完整。這使其更適合用於品牌行銷素材、產品視覺與廣告設計等場景。

對企業而言,這類模型的價值不在於能否生成驚艷圖像,而在於是否能持續產出「可用且可控」的內容,而這正是 MAI-Image-2 強化的核心。

廣告 - 內文未完請往下捲動

Clipto 挫勒但!微軟推會議逐字稿模型 MAI-Transcribe-1

緊接著在 4 月 2 日推出的 MAI-Transcribe-1,聚焦語音理解能力。這款模型的定位相當清晰,是將語音轉換為結構化文字資料的基礎層技術。它能處理即時語音輸入,並在多語言與不同口音情境下維持高辨識準確度,同時對背景噪音具備一定抗干擾能力。

這類能力對企業場景尤其關鍵,無論是會議逐字稿、客服通話紀錄,或媒體內容整理,都仰賴穩定的語音轉文字品質。一旦語音資料能被準確轉換為文字,後續的搜尋、摘要與分析流程便能全面自動化,這也是 MAI-Transcribe-1 在整體 AI 架構中的關鍵角色。

用 MAI-Voice-1 模型做客服、Podcast 語音

與之對應的 MAI-Voice-1,則負責語音輸出端。該模型的重點在於讓 AI 生成的語音更接近真人表現,包括語調、節奏與情緒的自然度。這使其能應用於客服語音、AI 助理、影音配音甚至 podcast 製作等場景。與過去較為機械式的語音合成相比,MAI-Voice-1 更強調可調整的語氣與風格,使語音不再只是資訊傳遞工具,而是具備溝通與表達能力的介面。

微軟「看、聽、說」三款 AI 模型總整理

若將三者放在同一脈絡觀察,可以發現微軟的佈局並非單點突破,而是朝向多模態整合快速推進。MAI-Image-2 處理視覺生成,MAI-Transcribe-1 負責語音理解,而 MAI-Voice-1 則完成語音生成,三者共同構成「看、聽、說」的基本能力結構。

這樣的能力一旦與既有的語言模型與雲端服務結合,便能形成完整的 AI 工作流程,從資料輸入、理解、生成到輸出,全部在同一體系內完成。

特性

MAI-Transcribe-1

(語音轉文字)

MAI-Voice-1 (文字轉語音) MAI-Image-2 (文字生成圖像)
主要功能

將語音轉換為逐字稿

生成自然流暢且具情感的語音

根據文字描述生成圖像

發布日期

2026 年 4 月 2 日

2026 年 4 月 2 日

2026 年 3 月 18 日

關鍵技術與特性

高抗噪性 、自動語言辨識

情感控制 、聲音複製 (Voice Prompting)

擴散模型架構 (Diffusion-based) 、擬真度高

支援語言

英文、中文、西班牙文等 25 種語言

目前僅限英文 (即將擴充至 10+ 種)

以文字輸入為主 (未特別標註多國語系支援)

定價方式

每小時音訊 $0.36 美元

每百萬字 $22.00 美元

視部署平台而定 (如 MAI Playground)

輸入/輸出限制

輸入:WAV, MP3, FLAC

輸入:純文字或 SSML

輸出:最大 1024×1024 像素

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。