Matriz LLM

Compara lanes de modelos como operador y no como fan de leaderboards.

Esta pagina responde antes a preguntas practicas: que lane es lo bastante barata para routing, cual encaja en trabajo de repo y que filas siguen teniendo sentido si importa el hosting local.

Modelos comparados

10

5 proveedores

Ruta open-weight

3

Local o router-friendly

Input por debajo de $1

7

Filas aptas para presupuesto

Opciones de contexto largo

4

Rutas con contexto de escala 1M

Codigo intenso

Usa frontier o especialistas de codigo de forma deliberada

No mezcles agentes de repo, autocomplete y copilots de producto bajo la misma lane si cambian latencia y gasto.

Produccion con presupuesto

Input barato es una decision de routing, no un ganador universal

Las filas baratas encajan mejor cuando clasifican, filtran o redactan antes de una ultima pasada mas cara.

Local-first

Las filas open-weight importan cuando el hosting forma parte de la decision de producto

Si importan privacidad, techo de coste o edge, conviene mantener una ruta real de self-host desde el inicio.

Matrix

Lanes operativas LLM actuales

Snapshot con docs oficiales

Matriz tecnica LLM

Snapshot curado desde documentacion oficial para comparar contexto, gasto, despliegue y encaje operativo.

Modelos 10
Con opcion open-weight 3
Por debajo de $1 input 7
Modelo Contexto Precio I/O Despliegue Mejor para Cautela
GPT-5.4 OpenAI

Frontier reasoning

Frontera para codigo y razonamiento Media Pesos cerrados
272k std / 1.05M extended

Text + image in

$2.50

Entrada / 1M

$15.00

Salida / 1M

Managed API / Codex Repos grandes, tareas de agente y reasoning con contexto largo

La salida se encarece rapido en sesiones largas

Fuente oficial: OpenAI pricing
GPT-5.4 mini OpenAI

High-throughput generalist

Equilibrado para subagentes Media-baja Pesos cerrados
400k

Text + image in

$0.75

Entrada / 1M

$4.50

Salida / 1M

Managed API / Codex Subagentes, pipelines y automatizacion con presupuesto

Menos margen que el frontier para tareas complejas

Fuente oficial: OpenAI model note
Claude Sonnet 4 Anthropic

Code review and planning

Fuerte para revision y planes largos Media Pesos cerrados
200k base / 1M beta

Text + image in

$3.00

Entrada / 1M

$15.00

Salida / 1M

Claude API / Claude Code Code review, docs largos y orquestacion con memoria

Conviene vigilar gasto cuando se activa contexto largo

Fuente oficial: Anthropic pricing
Claude Haiku 3.5 Anthropic

Fast operational lane

Rapido para triage y borradores Baja Pesos cerrados
200k

Text + image in

$0.80

Entrada / 1M

$4.00

Salida / 1M

Claude API Clasificacion, copilots internos y guardrails baratos

No es la mejor ultima pasada para reasoning profundo

Fuente oficial: Anthropic pricing
Gemini 2.5 Pro Google

Long-context multipurpose

Fuerte en codigo y contexto enorme Media Pesos cerrados
1,048,576

Text + image + video + audio

$1.25-$2.50

Entrada / 1M

$10.00-$15.00

Salida / 1M

Gemini API / Vertex Repos grandes, docs pesados y analisis multimodal

El precio sube al pasar de 200k tokens de entrada

Fuente oficial: Gemini pricing
Gemini 2.5 Flash-Lite Google

Cheap high-volume lane

Eficiente para throughput Baja Pesos cerrados
1,048,576

Text + image + video + audio

$0.10

Entrada / 1M

$0.40

Salida / 1M

Gemini API / Vertex Routing, clasificacion y jobs a escala

No deberia ser la ultima capa para decisiones delicadas

Fuente oficial: Gemini pricing
Mistral Large 3 Mistral

Enterprise generalist

Generalista fuerte con hosting flexible Media Con opcion open-weight
256k

Text + image in

$0.50

Entrada / 1M

$1.50

Salida / 1M

API / private cloud / self-host Stacks que quieren opcion europea y control de despliegue

El ecosistema es menor que OpenAI o Anthropic

Fuente oficial: Mistral docs
Codestral Mistral

Code specialist

Especialista en codigo Baja-media Pesos cerrados
256k

Code + text

$0.30

Entrada / 1M

$0.90

Salida / 1M

API / private deploy Autocompletado, FIM y tareas puras de programacion

No es la mejor opcion como generalista de producto

Fuente oficial: Mistral docs
Ministral 3 8B Mistral

Local-first small model

Ligero para edge y equipos pequenos Baja Con opcion open-weight
256k

Text

$0.10

Entrada / 1M

$0.10

Salida / 1M

Local / edge / API On-device, edge y asistentes internos baratos

La calidad cae antes que en modelos frontier

Fuente oficial: Mistral docs
DeepSeek V3.2 DeepSeek

Cheap open-weight generalist

Muy eficiente para primer pase Media-baja Con opcion open-weight
128k

Text

$0.028 hit / $0.28 miss

Entrada / 1M

$0.42

Salida / 1M

API / self-host / router Analisis barato, routing y borradores antes de QA final

En empresa conviene poner fallback y controles de salida

Fuente oficial: DeepSeek pricing

OpenAI

GPT-5.4

Cerrado

Frontier reasoning

Contexto
272k std / 1.05M extended
Entrada
$2.50
Salida
$15.00
Deploy
Managed API / Codex

Repos grandes, tareas de agente y reasoning con contexto largo

La salida se encarece rapido en sesiones largas

Fuente oficial

OpenAI

GPT-5.4 mini

Cerrado

High-throughput generalist

Contexto
400k
Entrada
$0.75
Salida
$4.50
Deploy
Managed API / Codex

Subagentes, pipelines y automatizacion con presupuesto

Menos margen que el frontier para tareas complejas

Fuente oficial

Anthropic

Claude Sonnet 4

Cerrado

Code review and planning

Contexto
200k base / 1M beta
Entrada
$3.00
Salida
$15.00
Deploy
Claude API / Claude Code

Code review, docs largos y orquestacion con memoria

Conviene vigilar gasto cuando se activa contexto largo

Fuente oficial

Anthropic

Claude Haiku 3.5

Cerrado

Fast operational lane

Contexto
200k
Entrada
$0.80
Salida
$4.00
Deploy
Claude API

Clasificacion, copilots internos y guardrails baratos

No es la mejor ultima pasada para reasoning profundo

Fuente oficial

Google

Gemini 2.5 Pro

Cerrado

Long-context multipurpose

Contexto
1,048,576
Entrada
$1.25-$2.50
Salida
$10.00-$15.00
Deploy
Gemini API / Vertex

Repos grandes, docs pesados y analisis multimodal

El precio sube al pasar de 200k tokens de entrada

Fuente oficial

Google

Gemini 2.5 Flash-Lite

Cerrado

Cheap high-volume lane

Contexto
1,048,576
Entrada
$0.10
Salida
$0.40
Deploy
Gemini API / Vertex

Routing, clasificacion y jobs a escala

No deberia ser la ultima capa para decisiones delicadas

Fuente oficial

Mistral

Mistral Large 3

Open-weight

Enterprise generalist

Contexto
256k
Entrada
$0.50
Salida
$1.50
Deploy
API / private cloud / self-host

Stacks que quieren opcion europea y control de despliegue

El ecosistema es menor que OpenAI o Anthropic

Fuente oficial

Mistral

Codestral

Cerrado

Code specialist

Contexto
256k
Entrada
$0.30
Salida
$0.90
Deploy
API / private deploy

Autocompletado, FIM y tareas puras de programacion

No es la mejor opcion como generalista de producto

Fuente oficial

Mistral

Ministral 3 8B

Open-weight

Local-first small model

Contexto
256k
Entrada
$0.10
Salida
$0.10
Deploy
Local / edge / API

On-device, edge y asistentes internos baratos

La calidad cae antes que en modelos frontier

Fuente oficial

DeepSeek

DeepSeek V3.2

Open-weight

Cheap open-weight generalist

Contexto
128k
Entrada
$0.028 hit / $0.28 miss
Salida
$0.42
Deploy
API / self-host / router

Analisis barato, routing y borradores antes de QA final

En empresa conviene poner fallback y controles de salida

Fuente oficial

Ruta

Ruta LLM

Empieza por la capa de routing si todavia decides entre vendor, escenario o workflow.

Ruta

Provider compare

Recorta la lane de proveedor antes de sobrecargar filas individuales.

Ruta

Model fit radar

Pasa de la ficha tecnica a picks de modelo orientados a escenario.

Ruta

Workflow recipes

Salta a playbooks operativos cuando la lane de modelo ya esta bastante cerrada.