Models

All models are available on every plan. Rate limits (RPM and TPM) are set at the key level, not per model.

List models

Query the live model list:

curl https://api.cheapestinference.com/v1/models \
  -H "Authorization: Bearer YOUR_API_KEY"

This returns the full list of available models. The response follows the OpenAI /v1/models format.

To get details about a specific model:

curl https://api.cheapestinference.com/v1/models/gpt-4o-mini \
  -H "Authorization: Bearer YOUR_API_KEY"

Available models

OpenAI

Model ID	Name
`gpt-4o`	GPT-4o
`gpt-4o-mini`	GPT-4o mini
`o3-mini`	o3 mini

Anthropic

Model ID	Name
`claude-sonnet-4-20250514`	Claude Sonnet 4
`claude-3-5-haiku-20241022`	Claude 3.5 Haiku

Google

Model ID	Name
`gemini-2.5-flash`	Gemini 2.5 Flash
`gemini-2.5-pro`	Gemini 2.5 Pro

DeepSeek

Model ID	Name
`deepseek-chat`	DeepSeek V3.2
`deepseek-reasoner`	DeepSeek R1

Qwen

Model ID	Name
`qwen3-235b`	Qwen3 235B
`qwen3-coder-480b`	Qwen3 Coder 480B

Model ID	Name
`llama-3.3-70b`	Llama 3.3 70B
`llama-4-scout`	Llama 4 Scout

Moonshot

Model ID	Name
`kimi-2.5`	Kimi 2.5

Embeddings

Model ID	Name
`text-embedding-3-small`	Embedding 3 Small
`text-embedding-3-large`	Embedding 3 Large

Using models

Specify the model ID in your request:

# OpenAI SDK — any model
response = client.chat.completions.create(
    model="deepseek-chat",  # or "gpt-4o", "kimi-2.5", etc.
    messages=[{"role": "user", "content": "Hello"}]
)

# Anthropic SDK — Claude models
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}]
)

All models work through both the OpenAI endpoint (/v1/chat/completions) and the Anthropic endpoint (/anthropic/v1/messages). The API handles format translation automatically.