微軟發佈三款 AI「看、聽、說」模型，瞄準商用級 AI 企業工作流

Neo

2026/4/3

繼 3 月 18 日推出影像生成模型 MAI-Image-2 後，Microsoft 在 4 月 2 日再度釋出兩款語音相關模型 MAI-Transcribe-1 與 MAI-Voice-1，短時間內連續補齊影像與語音能力，被視為其多模態 AI 戰略的重要推進。這三款模型並非零散更新，而是從視覺生成、語音理解到語音輸出的完整拼圖，顯示微軟正試圖建立一套可直接嵌入企業工作流程的 AI 基礎能力。

Table of Contents

微軟 MAI-Image-2 瞄準商用影像生成

3 月 18 日微軟首先推出的 MAI-Image-2，明顯將重心放在「可商用」而非單純創意生成。相較於早期偏向娛樂或實驗性質的圖像模型，MAI-Image-2 更強調輸出穩定性與語意準確度，能在複雜指令下維持構圖一致與細節完整。這使其更適合用於品牌行銷素材、產品視覺與廣告設計等場景。

對企業而言，這類模型的價值不在於能否生成驚艷圖像，而在於是否能持續產出「可用且可控」的內容，而這正是 MAI-Image-2 強化的核心。

廣告 - 內文未完請往下捲動

Clipto 挫勒但！微軟推會議逐字稿模型 MAI-Transcribe-1

緊接著在 4 月 2 日推出的 MAI-Transcribe-1，聚焦語音理解能力。這款模型的定位相當清晰，是將語音轉換為結構化文字資料的基礎層技術。它能處理即時語音輸入，並在多語言與不同口音情境下維持高辨識準確度，同時對背景噪音具備一定抗干擾能力。

這類能力對企業場景尤其關鍵，無論是會議逐字稿、客服通話紀錄，或媒體內容整理，都仰賴穩定的語音轉文字品質。一旦語音資料能被準確轉換為文字，後續的搜尋、摘要與分析流程便能全面自動化，這也是 MAI-Transcribe-1 在整體 AI 架構中的關鍵角色。

用 MAI-Voice-1 模型做客服、Podcast 語音

與之對應的 MAI-Voice-1，則負責語音輸出端。該模型的重點在於讓 AI 生成的語音更接近真人表現，包括語調、節奏與情緒的自然度。這使其能應用於客服語音、AI 助理、影音配音甚至 podcast 製作等場景。與過去較為機械式的語音合成相比，MAI-Voice-1 更強調可調整的語氣與風格，使語音不再只是資訊傳遞工具，而是具備溝通與表達能力的介面。

微軟「看、聽、說」三款 AI 模型總整理

若將三者放在同一脈絡觀察，可以發現微軟的佈局並非單點突破，而是朝向多模態整合快速推進。MAI-Image-2 處理視覺生成，MAI-Transcribe-1 負責語音理解，而 MAI-Voice-1 則完成語音生成，三者共同構成「看、聽、說」的基本能力結構。

這樣的能力一旦與既有的語言模型與雲端服務結合，便能形成完整的 AI 工作流程，從資料輸入、理解、生成到輸出，全部在同一體系內完成。

特性	MAI-Transcribe-1 (語音轉文字)	MAI-Voice-1 (文字轉語音)	MAI-Image-2 (文字生成圖像)
主要功能	將語音轉換為逐字稿	生成自然流暢且具情感的語音	根據文字描述生成圖像
發布日期	2026 年 4 月 2 日	2026 年 4 月 2 日	2026 年 3 月 18 日
關鍵技術與特性	高抗噪性、自動語言辨識	情感控制、聲音複製 (Voice Prompting)	擴散模型架構 (Diffusion-based) 、擬真度高
支援語言	英文、中文、西班牙文等 25 種語言	目前僅限英文 (即將擴充至 10+ 種)	以文字輸入為主 (未特別標註多國語系支援)
定價方式	每小時音訊 $0.36 美元	每百萬字 $22.00 美元	視部署平台而定 (如 MAI Playground)
輸入/輸出限制	輸入：WAV, MP3, FLAC	輸入：純文字或 SSML	輸出：最大 1024×1024 像素