微軟發佈三款 AI「看、聽、說」模型,瞄準商用級 AI 企業工作流
繼 3 月 18 日推出影像生成模型 MAI-Image-2 後,Microsoft 在 4 月 2 日再度釋出兩款語音相關模型 MAI-Transcribe-1 與 MAI-Voice-1,短時間內連續補齊影像與語音能力,被視為其多模態 AI 戰略的重要推進。這三款模型並非零散更新,而是從視覺生成、語音理解到語音輸出的完整拼圖,顯示微軟正試圖建立一套可直接嵌入企業工作流程的 AI 基礎能力。
微軟 MAI-Image-2 瞄準商用影像生成
3 月 18 日微軟首先推出的 MAI-Image-2,明顯將重心放在「可商用」而非單純創意生成。相較於早期偏向娛樂或實驗性質的圖像模型,MAI-Image-2 更強調輸出穩定性與語意準確度,能在複雜指令下維持構圖一致與細節完整。這使其更適合用於品牌行銷素材、產品視覺與廣告設計等場景。
對企業而言,這類模型的價值不在於能否生成驚艷圖像,而在於是否能持續產出「可用且可控」的內容,而這正是 MAI-Image-2 強化的核心。
Clipto 挫勒但!微軟推會議逐字稿模型 MAI-Transcribe-1
緊接著在 4 月 2 日推出的 MAI-Transcribe-1,聚焦語音理解能力。這款模型的定位相當清晰,是將語音轉換為結構化文字資料的基礎層技術。它能處理即時語音輸入,並在多語言與不同口音情境下維持高辨識準確度,同時對背景噪音具備一定抗干擾能力。
這類能力對企業場景尤其關鍵,無論是會議逐字稿、客服通話紀錄,或媒體內容整理,都仰賴穩定的語音轉文字品質。一旦語音資料能被準確轉換為文字,後續的搜尋、摘要與分析流程便能全面自動化,這也是 MAI-Transcribe-1 在整體 AI 架構中的關鍵角色。
用 MAI-Voice-1 模型做客服、Podcast 語音
與之對應的 MAI-Voice-1,則負責語音輸出端。該模型的重點在於讓 AI 生成的語音更接近真人表現,包括語調、節奏與情緒的自然度。這使其能應用於客服語音、AI 助理、影音配音甚至 podcast 製作等場景。與過去較為機械式的語音合成相比,MAI-Voice-1 更強調可調整的語氣與風格,使語音不再只是資訊傳遞工具,而是具備溝通與表達能力的介面。
微軟「看、聽、說」三款 AI 模型總整理
若將三者放在同一脈絡觀察,可以發現微軟的佈局並非單點突破,而是朝向多模態整合快速推進。MAI-Image-2 處理視覺生成,MAI-Transcribe-1 負責語音理解,而 MAI-Voice-1 則完成語音生成,三者共同構成「看、聽、說」的基本能力結構。
這樣的能力一旦與既有的語言模型與雲端服務結合,便能形成完整的 AI 工作流程,從資料輸入、理解、生成到輸出,全部在同一體系內完成。
| 特性 |
MAI-Transcribe-1 (語音轉文字) |
MAI-Voice-1 (文字轉語音) | MAI-Image-2 (文字生成圖像) |
| 主要功能 |
將語音轉換為逐字稿 |
生成自然流暢且具情感的語音 |
根據文字描述生成圖像 |
| 發布日期 |
2026 年 4 月 2 日 |
2026 年 4 月 2 日 |
2026 年 3 月 18 日 |
| 關鍵技術與特性 |
高抗噪性 、自動語言辨識 |
情感控制 、聲音複製 (Voice Prompting) |
擴散模型架構 (Diffusion-based) 、擬真度高 |
| 支援語言 |
英文、中文、西班牙文等 25 種語言 |
目前僅限英文 (即將擴充至 10+ 種) |
以文字輸入為主 (未特別標註多國語系支援) |
| 定價方式 |
每小時音訊 $0.36 美元 |
每百萬字 $22.00 美元 |
視部署平台而定 (如 MAI Playground) |
| 輸入/輸出限制 |
輸入:WAV, MP3, FLAC |
輸入:純文字或 SSML |
輸出:最大 1024×1024 像素 |
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。

