Stock API AI and ML 自動交易永豐金: Gemini API 有關圖形多模態的限制

2025年6月30日星期一

Gemini API 有關圖形多模態的限制

Gemini 系列模型中，支援 API 傳送圖形（即具有多模態功能）的主要模型有：

Gemini 1.0 Pro Vision (或簡稱 Gemini Pro Vision):
- 這是 Gemini 1.0 系列中支援視覺輸入的模型。它可以處理文字和圖片輸入，並生成文字回應。
- 在許多情境下，它是處理多模態任務的常用選擇。
Gemini 1.5 Flash:
- 如您在程式碼中使用的，這是 Gemini 1.5 系列中速度更快、效率更高的模型。它原生支援多模態輸入，包括圖片、音訊、影片和文字，並能生成文字回應。
- 它專為需要低延遲、高效能的工作負載而設計，例如即時聊天機器人或代理服務。
Gemini 1.5 Pro:
- 這是 Gemini 1.5 系列中功能更強大、推理能力更強的模型。它同樣原生支援多模態輸入，適用於更複雜的程式編寫、推理和多模態理解任務。
- 雖然回應速度可能比 Flash 略慢，但在需要深度思考和高準確度時表現更佳。

總結來說，目前透過 Gemini API 支援圖像輸入的推薦模型包括：

Gemini 1.5 Flash (推薦用於速度和效率，您目前正在使用的模型)
Gemini 1.5 Pro (推薦用於更複雜的推理和理解)
Gemini 1.0 Pro Vision (較早期的版本，但仍支援視覺)

支援的圖片 MIME 類型包括：

image/png
image/jpeg
image/webp
image/heic
image/heif

您可以根據您的應用場景和對模型效能、成本的需求來選擇最適合的 Gemini 模型。在 Google AI Studio 中，您可以方便地測試和選擇這些模型。

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)