2025年6月30日 星期一

Gemini API 有關圖形多模態的限制

 Gemini 系列模型中,支援 API 傳送圖形(即具有多模態功能)的主要模型有:

  1. Gemini 1.0 Pro Vision (或簡稱 Gemini Pro Vision):

    • 這是 Gemini 1.0 系列中支援視覺輸入的模型。它可以處理文字和圖片輸入,並生成文字回應。

    • 在許多情境下,它是處理多模態任務的常用選擇。

  2. Gemini 1.5 Flash:

    • 如您在程式碼中使用的,這是 Gemini 1.5 系列中速度更快、效率更高的模型。它原生支援多模態輸入,包括圖片、音訊、影片和文字,並能生成文字回應。

    • 它專為需要低延遲、高效能的工作負載而設計,例如即時聊天機器人或代理服務。

  3. Gemini 1.5 Pro:

    • 這是 Gemini 1.5 系列中功能更強大、推理能力更強的模型。它同樣原生支援多模態輸入,適用於更複雜的程式編寫、推理和多模態理解任務。

    • 雖然回應速度可能比 Flash 略慢,但在需要深度思考和高準確度時表現更佳。

總結來說,目前透過 Gemini API 支援圖像輸入的推薦模型包括:

  • Gemini 1.5 Flash (推薦用於速度和效率,您目前正在使用的模型)

  • Gemini 1.5 Pro (推薦用於更複雜的推理和理解)

  • Gemini 1.0 Pro Vision (較早期的版本,但仍支援視覺)

支援的圖片 MIME 類型包括:

  • image/png

  • image/jpeg

  • image/webp

  • image/heic

  • image/heif

您可以根據您的應用場景和對模型效能、成本的需求來選擇最適合的 Gemini 模型。在 Google AI Studio 中,您可以方便地測試和選擇這些模型。

沒有留言:

張貼留言