Google 推出原生多模態 AI 模型 Gemini，挑戰GPT-4

Florence

2023/12/7

Google 宣布推出原生多模態 AI 模型 Gemini。Gemini 是 Google 迄今為止最強大、最通用的 AI 模型，可同時理解、操作和組合文字、程式碼、音訊、圖像和影片等不同類型的訊息。

Table of Contents

Google 推出的原生多模態 AI 模型 Gemini

Google 推出的原生多模態 AI 模型 Gemini，強調是從頭開始建立的多模組 AI 模型，就像人類有五感，同時接收和感知這個世界一樣，而這也意味著 Gemini 可以像人類一樣概括和無縫地理解、操作和組合不同類型的訊息，包括文字、程式碼、音訊、圖像和影片等等。這將比其他單獨建構的文本、語音模型，最後再相連接產生的效果還要好的多。

Google 嚴格測試 Gemini 模型並評估其在各種任務中的表現。從自然影像、音訊和視訊理解到數學推理，Gemini Ultra 的性能在大型語言模型 (LLM) 研發中使用的 32 個廣泛使用的學術基準中的 30 個上超過了當前最先進的結果。

廣告 - 內文未完請往下捲動

其中最高階的 Gemini Ultra 得分高達 90.0%，是第一個在MMLU (大規模多任務語言理解) 上超越人類專家的模型。

理解力到底有多強？在影片中，Google 展示了兩張非常簡單的手繪汽車圖，問 Gemini 哪台跑地比較快，Gemini 回答「右邊比較快，因為它比較符合空氣力學」。

Gemini 提供三種版本，連手機都可用

為了滿足大到資料中心等級，小到到行動裝置等不同使用環境需求，Gemini 一共推出三個版本：

Ultra：最大、能力最強的模型，適用於高度複雜的任務。Google 正在進行一系列的安全測試，將會釋出少量試用版給企業客戶與開發者，估計明年推出正式版
Pro：可擴展各種任務的最佳模型，已經在英文版的聊天機器人 Bard 中使用
Nano ：最有效率的裝置端任務模型，準備給 Pixel 8 Pro 手機使用

Gemini 將全面出現在 Google 的各項服務中

Google 的 AI 聊天機器人 Bard 已開始使用 Gemini Pro 的微調版本來進行更高級的推理、計劃、理解等。這是 Bard 自推出以來最大的升級。它將在 170 多個國家和地區提供英語版本，並計劃在不久的將來擴展到不同的模式並支援新的語言和地點。

Google 也將 Gemini 引入 Pixel。Pixel 8 Pro 是第一款運行 Gemini Nano 的智慧型手機，它支援 Recorder 應用程式中的 Summarize 等新功能，不需要連上網路，也能在手機上用 Gemini 來整理會議錄音檔的開會摘要內容。並從 WhatsApp 開始推出 Gboard 中的 Smart Reply，明年還會推出更多應用程式。

在接下來的幾個月中，Gemini 將出現在更多的產品和服務中，例如搜尋、廣告、Chrome 和 Duet AI。

Google 及 Alphabet 執行長 Sundar Pichai 表示：

這是我們迄今為止最強大、最通用的模型，我對未來以及 Gemini 將為世界各地的人們帶來的機會感到由衷的興奮。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。