xiaohu 示範跨模型工作流:GPT 生圖 + Gemini 3.1 Pro 轉 3D 互動內容
中文 AI 觀察家 xiaohu 5 月 10 日分享一個結合 GPT 與 Gemini 3.1 Pro 的工作流範例:先用 GPT 生成圖像、再用 Gemini 3.1 Pro 把圖像轉換為 3D 互動內容、可把任何知識主題做成可旋轉、可操作的科學應用。xiaohu 推文展示的範例包括 3D 行星展示、互動科學模型等、是「跨模型工作流」(multi-model workflow)的具體實踐。
工作流結構:GPT 生圖 → Gemini 3.1 Pro 3D 化
整個工作流的兩階段設計:
- 階段一:用 GPT(GPT-image-1 或 ChatGPT 內建的圖像生成)產出主題圖像、提供視覺基礎
- 階段二:把圖像輸入 Gemini 3.1 Pro、由 Gemini 把 2D 圖像轉換為 3D 互動內容
- 輸出形式:可在瀏覽器內旋轉、縮放、互動的 3D 物件
- 適用場景:科學教育、產品展示、知識互動內容
「跨模型工作流」是 2026 年 AI 應用層的關鍵趨勢之一—單一模型不再是萬能工具、開發者把不同模型最強的部分串接起來、做出單一模型做不到的應用。
具體展示:3D 行星、互動科學內容、機器人售貨網站
xiaohu 同步發布的多個範例:
- 3D 行星展示:可旋轉的太陽系或單一行星模型
- 互動科學內容:把抽象知識做成 3D 視覺化、適合教育用途
- 機器人售貨機未來網站:用 GPT 生圖加上 Tripo 3D 平台、做出展示型網頁
這些範例的共同特徵是「視覺生成 + 互動轉換」—GPT 負責創意視覺、Gemini 或其他 3D 工具負責把靜態圖像轉成可操作的互動形式。每一段單獨拿出來都不算新、但串接後的最終體驗比任何單一工具強。
對開發者的啟示:選對工具比選最強模型重要
從本次工作流看到的三個具體點:
- 選對工具比選最強模型重要—GPT 強的視覺、Gemini 強的多模態理解、Claude 強的長 context、各有各的甜蜜點
- 模型 API 整合成本下降、串接多個模型在實作層級變得可行
- 新型應用走向「多模型 pipeline」、單一模型的能力擴張只是其中一種路徑
- 本案的價值在工作流設計的範本可複用、技術元件本身並非新發明
後續可追蹤的具體事件:Gemini 3.1 Pro 的 3D 生成能力是否被 Google 在後續活動正式公告為產品功能、跨模型工作流是否在 LangChain/LlamaIndex 等框架中取得預設模板支援、以及商業化案例(如教育、電商、行銷)的具體採用範例。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。


