Google Vertex AI Official Docs

Gemini 1.5 Flash

gemini-1.5-flash-002

active

Gemini 1.5 Flash

Gemini 1.5 Flash is a fast and versatile multimodal model from Google, released in September 2024. It excels at a wide range of tasks, including text, image, video, and audio processing, as well as transcription and text-to-speech capabilities.

Supports a 1,000,000 token context window. Handles Text, Image, Video, Audio, Transcription, Text-to-Speech inputs and outputs. Supports fine-tuning for custom applications. Supports tool use for advanced automation. Capable of generating structured output formats.

Additional Information

Notes

This model has a 1 million token context window and supports multimodal inputs including text, images, video, and audio. It has improved general model quality with significant gains in factuality, instruction following, multilingual understanding, SQL generation, audio understanding, document understanding, long context, and math and reasoning. The model will be discontinued on September 24, 2025.

Model Timeline

Launch Date

9/24/2024

Last Updated

9/24/2024

Capabilities

Text

Input Pricing

$0.00001875/ KTok

Context: 1,000,000 tokens

Long context: 128,000 + @ 0.0000375x

Output Pricing

$0.000075/ KTok

Vision Capabilities

Image

Input Pricing

$0.00002 /image

Video

Input Pricing

$0.00002/second

Audio

Input Pricing

$ 0.00012 /minute

Generation Pricing

Not available

Transcription

Transcription Pricing

$0.00012/minute

Text-to-Speech

Text-to-Speech Pricing

$0.000075/1k characters

Embeddings

Embeddings Pricing

$0.000025/1k tokens

Additional Model Information

Tool Use

Yes

Structured Output

Yes

Reasoning

Yes

Google Vertex AI Official Docs

Gemini 1.5 Flash

Gemini 1.5 Flash

Additional Information

Notes

Model Timeline

Launch Date

Last Updated

Capabilities

Text

Input Pricing

Output Pricing

Vision Capabilities

Image

Input Pricing

Video

Input Pricing

Audio

Input Pricing

Generation Pricing

Transcription

Transcription Pricing

Text-to-Speech

Text-to-Speech Pricing

Embeddings

Embeddings Pricing

Additional Model Information

Tool Use

Structured Output

Reasoning

Anthropic

Cohere

DeepSeek

Google Vertex AI

Groq

Mistral

OpenAI

X.AI

Additional Information

Notes

Model Timeline

Launch Date

Last Updated

Capabilities

Text

Input Pricing

Output Pricing

Vision Capabilities

Image

Input Pricing

Video

Input Pricing

Audio

Input Pricing

Generation Pricing

Transcription

Transcription Pricing

Text-to-Speech

Text-to-Speech Pricing

Embeddings

Embeddings Pricing

Additional Model Information

Tool Use

Structured Output

Reasoning

Flatten your repo for AI in seconds

Anthropic

Cohere

DeepSeek

Google Vertex AI

Groq

Mistral

OpenAI

X.AI