Mistral Official Docs

Mistral OCR

mistral-ocr-latest

active

Mistral OCR

Introducing the world's best document understanding API, capable of extracting interleaved text and images from a wide range of document formats.

Supports a 32768 token context window. Handles Text, Image, Video, Audio, Transcription, Text-to-Speech inputs and outputs. Supports fine-tuning for custom applications.

Capable of generating structured output formats.

Additional Information

Notes

Also known as mistral-ocr-2503. Context length of 32768 tokens.

Model Timeline

Launch Date

3/1/2025

Last Updated

3/1/2025

Capabilities

Text

Input Pricing

$0.70/ MTok

Context: 32,768 tokens

Output Pricing

$0.70/ MTok

Max tokens: 4,096

Vision Capabilities

Max resolution: 4096x4096

Max images per prompt: 10

Image

Input Pricing

1000 tokens/image

Embeddings

Embeddings Pricing

$0.0001/1k tokens

Additional Model Information

Tool Use

Structured Output

Yes

Mistral Official Docs

Mistral OCR

Mistral OCR

Additional Information

Notes

Model Timeline

Launch Date

Last Updated

Capabilities

Text

Input Pricing

Output Pricing

Vision Capabilities

Image

Input Pricing

Embeddings

Embeddings Pricing

Additional Model Information

Tool Use

Structured Output

Reasoning

Anthropic

Cohere

DeepSeek

Google Vertex AI

Groq

Mistral

OpenAI

X.AI

Additional Information

Notes

Model Timeline

Launch Date

Last Updated

Capabilities

Text

Input Pricing

Output Pricing

Vision Capabilities

Image

Input Pricing

Embeddings

Embeddings Pricing

Additional Model Information

Tool Use

Structured Output

Reasoning

Flatten your repo for AI in seconds

Anthropic

Cohere

DeepSeek

Google Vertex AI

Groq

Mistral

OpenAI

X.AI