Google 推出原生多模態 AI 模型 Gemini,挑戰GPT-4

Florence
分享
Google 推出原生多模態 AI 模型 Gemini,挑戰GPT-4

Google 宣布推出原生多模態 AI 模型 Gemini。Gemini 是 Google 迄今為止最強大、最通用的 AI 模型,可同時理解、操作和組合文字、程式碼、音訊、圖像和影片等不同類型的訊息。

Google 推出的原生多模態 AI 模型 Gemini

Google 推出的原生多模態 AI 模型 Gemini,強調是從頭開始建立的多模組 AI 模型,就像人類有五感,同時接收和感知這個世界一樣,而這也意味著 Gemini 可以像人類一樣概括和無縫地理解、操作和組合不同類型的訊息,包括文字、程式碼、音訊、圖像和影片等等。這將比其他單獨建構的文本、語音模型,最後再相連接產生的效果還要好的多。

Google 嚴格測試 Gemini 模型並評估其在各種任務中的表現。從自然影像、音訊和視訊理解到數學推理,Gemini Ultra 的性能在大型語言模型 (LLM) 研發中使用的 32 個廣泛使用的學術基準中的 30 個上超過了當前最先進的結果。

廣告 - 內文未完請往下捲動

其中最高階的 Gemini Ultra 得分高達 90.0%,是第一個在MMLU (大規模多任務語言理解) 上超越人類專家的模型。

理解力到底有多強?在影片中,Google 展示了兩張非常簡單的手繪汽車圖,問 Gemini 哪台跑地比較快,Gemini 回答「右邊比較快,因為它比較符合空氣力學」。

Gemini 提供三種版本,連手機都可用

為了滿足大到資料中心等級,小到到行動裝置等不同使用環境需求,Gemini 一共推出三個版本:

  • Ultra:最大、能力最強的模型,適用於高度複雜的任務。Google 正在進行一系列的安全測試,將會釋出少量試用版給企業客戶與開發者,估計明年推出正式版
  • Pro:可擴展各種任務的最佳模型,已經在英文版的聊天機器人 Bard 中使用
  • Nano :最有效率的裝置端任務模型,準備給 Pixel 8 Pro 手機使用

Gemini 將全面出現在 Google 的各項服務中

Google 的 AI 聊天機器人 Bard 已開始使用 Gemini Pro 的微調版本來進行更高級的推理、計劃、理解等。這是 Bard 自推出以來最大的升級。它將在 170 多個國家和地區提供英語版本,並計劃在不久的將來擴展到不同的模式並支援新的語言和地點。

Google 也將 Gemini 引入 Pixel。Pixel 8 Pro 是第一款運行 Gemini Nano 的智慧型手機,它支援 Recorder 應用程式中的 Summarize 等新功能,不需要連上網路,也能在手機上用 Gemini 來整理會議錄音檔的開會摘要內容。並從 WhatsApp 開始推出 Gboard 中的 Smart Reply,明年還會推出更多應用程式。

在接下來的幾個月中,Gemini 將出現在更多的產品和服務中,例如搜尋、廣告、Chrome 和 Duet AI。

Google 及 Alphabet 執行長 Sundar Pichai 表示:

這是我們迄今為止最強大、最通用的模型,我對未來以及 Gemini 將為世界各地的人們帶來的機會感到由衷的興奮。

更多 Gemini 強大用例:Google 推出最強 AI Gemini,顧問、家教、助理都能勝任