Gemini 系列模型中,支援 API 傳送圖形(即具有多模態功能)的主要模型有:
Gemini 1.0 Pro Vision (或簡稱 Gemini Pro Vision):
這是 Gemini 1.0 系列中支援視覺輸入的模型。它可以處理文字和圖片輸入,並生成文字回應。
在許多情境下,它是處理多模態任務的常用選擇。
Gemini 1.5 Flash:
如您在程式碼中使用的,這是 Gemini 1.5 系列中速度更快、效率更高的模型。它原生支援多模態輸入,包括圖片、音訊、影片和文字,並能生成文字回應。
它專為需要低延遲、高效能的工作負載而設計,例如即時聊天機器人或代理服務。
Gemini 1.5 Pro:
這是 Gemini 1.5 系列中功能更強大、推理能力更強的模型。它同樣原生支援多模態輸入,適用於更複雜的程式編寫、推理和多模態理解任務。
雖然回應速度可能比 Flash 略慢,但在需要深度思考和高準確度時表現更佳。
總結來說,目前透過 Gemini API 支援圖像輸入的推薦模型包括:
Gemini 1.5 Flash (推薦用於速度和效率,您目前正在使用的模型)
Gemini 1.5 Pro (推薦用於更複雜的推理和理解)
Gemini 1.0 Pro Vision (較早期的版本,但仍支援視覺)
支援的圖片 MIME 類型包括:
image/png
image/jpeg
image/webp
image/heic
image/heif
您可以根據您的應用場景和對模型效能、成本的需求來選擇最適合的 Gemini 模型。在 Google AI Studio 中,您可以方便地測試和選擇這些模型。
沒有留言:
張貼留言