X.AI Official Docs

Grok-2-image

grok-2-image-1212

active

Grok-2-image

Grok-2-image is a powerful AI model that combines advanced text and image understanding capabilities, enabling seamless integration across a wide range of applications. With its expansive 128,000 token context window, this model can handle diverse inputs and outputs, including text, images, video, audio, transcription, and text-to-speech.

Supports a 128,000 token context window. Handles Text, Image, Video, Audio, Transcription, Text-to-Speech inputs and outputs. Supports fine-tuning for custom applications.

Capabilities

Text

Input Pricing

$0.00/ KTok

Context: 128,000 tokens

Output Pricing

$0.00/ KTok

Max tokens: 4,096

Vision Capabilities

Max resolution: 1024x1024

Max images per prompt: 5

Embeddings

Embeddings Pricing

$0.0001/1k tokens

X.AI Official Docs

Grok-2-image

Grok-2-image

Capabilities

Text

Input Pricing

Output Pricing

Vision Capabilities

Embeddings

Embeddings Pricing

Anthropic

Cohere

DeepSeek

Google Vertex AI

Groq

Mistral

OpenAI

X.AI

Capabilities

Text

Input Pricing

Output Pricing

Vision Capabilities

Embeddings

Embeddings Pricing

Flatten your repo for AI in seconds

Anthropic

Cohere

DeepSeek

Google Vertex AI

Groq

Mistral

OpenAI

X.AI