Codigo intenso
Usa frontier o especialistas de codigo de forma deliberada
No mezcles agentes de repo, autocomplete y copilots de producto bajo la misma lane si cambian latencia y gasto.
Esta pagina responde antes a preguntas practicas: que lane es lo bastante barata para routing, cual encaja en trabajo de repo y que filas siguen teniendo sentido si importa el hosting local.
Modelos comparados
5 proveedores
Ruta open-weight
Local o router-friendly
Input por debajo de $1
Filas aptas para presupuesto
Opciones de contexto largo
Rutas con contexto de escala 1M
Codigo intenso
No mezcles agentes de repo, autocomplete y copilots de producto bajo la misma lane si cambian latencia y gasto.
Produccion con presupuesto
Las filas baratas encajan mejor cuando clasifican, filtran o redactan antes de una ultima pasada mas cara.
Local-first
Si importan privacidad, techo de coste o edge, conviene mantener una ruta real de self-host desde el inicio.
Matriz tecnica LLM
Snapshot curado desde documentacion oficial para comparar contexto, gasto, despliegue y encaje operativo.
| Modelo | Contexto | Precio I/O | Despliegue | Mejor para | Cautela |
|---|---|---|---|---|---|
| GPT-5.4 OpenAI Frontier reasoning Frontera para codigo y razonamiento Media Pesos cerrados | 272k std / 1.05M extended Text + image in | $2.50 Entrada / 1M $15.00Salida / 1M | Managed API / Codex | Repos grandes, tareas de agente y reasoning con contexto largo | La salida se encarece rapido en sesiones largas Fuente oficial: OpenAI pricing |
| GPT-5.4 mini OpenAI High-throughput generalist Equilibrado para subagentes Media-baja Pesos cerrados | 400k Text + image in | $0.75 Entrada / 1M $4.50Salida / 1M | Managed API / Codex | Subagentes, pipelines y automatizacion con presupuesto | Menos margen que el frontier para tareas complejas Fuente oficial: OpenAI model note |
| Claude Sonnet 4 Anthropic Code review and planning Fuerte para revision y planes largos Media Pesos cerrados | 200k base / 1M beta Text + image in | $3.00 Entrada / 1M $15.00Salida / 1M | Claude API / Claude Code | Code review, docs largos y orquestacion con memoria | Conviene vigilar gasto cuando se activa contexto largo Fuente oficial: Anthropic pricing |
| Claude Haiku 3.5 Anthropic Fast operational lane Rapido para triage y borradores Baja Pesos cerrados | 200k Text + image in | $0.80 Entrada / 1M $4.00Salida / 1M | Claude API | Clasificacion, copilots internos y guardrails baratos | No es la mejor ultima pasada para reasoning profundo Fuente oficial: Anthropic pricing |
| Gemini 2.5 Pro Google Long-context multipurpose Fuerte en codigo y contexto enorme Media Pesos cerrados | 1,048,576 Text + image + video + audio | $1.25-$2.50 Entrada / 1M $10.00-$15.00Salida / 1M | Gemini API / Vertex | Repos grandes, docs pesados y analisis multimodal | El precio sube al pasar de 200k tokens de entrada Fuente oficial: Gemini pricing |
| Gemini 2.5 Flash-Lite Google Cheap high-volume lane Eficiente para throughput Baja Pesos cerrados | 1,048,576 Text + image + video + audio | $0.10 Entrada / 1M $0.40Salida / 1M | Gemini API / Vertex | Routing, clasificacion y jobs a escala | No deberia ser la ultima capa para decisiones delicadas Fuente oficial: Gemini pricing |
| Mistral Large 3 Mistral Enterprise generalist Generalista fuerte con hosting flexible Media Con opcion open-weight | 256k Text + image in | $0.50 Entrada / 1M $1.50Salida / 1M | API / private cloud / self-host | Stacks que quieren opcion europea y control de despliegue | El ecosistema es menor que OpenAI o Anthropic Fuente oficial: Mistral docs |
| Codestral Mistral Code specialist Especialista en codigo Baja-media Pesos cerrados | 256k Code + text | $0.30 Entrada / 1M $0.90Salida / 1M | API / private deploy | Autocompletado, FIM y tareas puras de programacion | No es la mejor opcion como generalista de producto Fuente oficial: Mistral docs |
| Ministral 3 8B Mistral Local-first small model Ligero para edge y equipos pequenos Baja Con opcion open-weight | 256k Text | $0.10 Entrada / 1M $0.10Salida / 1M | Local / edge / API | On-device, edge y asistentes internos baratos | La calidad cae antes que en modelos frontier Fuente oficial: Mistral docs |
| DeepSeek V3.2 DeepSeek Cheap open-weight generalist Muy eficiente para primer pase Media-baja Con opcion open-weight | 128k Text | $0.028 hit / $0.28 miss Entrada / 1M $0.42Salida / 1M | API / self-host / router | Analisis barato, routing y borradores antes de QA final | En empresa conviene poner fallback y controles de salida Fuente oficial: DeepSeek pricing |
OpenAI
Frontier reasoning
Repos grandes, tareas de agente y reasoning con contexto largo
La salida se encarece rapido en sesiones largas
Fuente oficialOpenAI
High-throughput generalist
Subagentes, pipelines y automatizacion con presupuesto
Menos margen que el frontier para tareas complejas
Fuente oficialAnthropic
Code review and planning
Code review, docs largos y orquestacion con memoria
Conviene vigilar gasto cuando se activa contexto largo
Fuente oficialAnthropic
Fast operational lane
Clasificacion, copilots internos y guardrails baratos
No es la mejor ultima pasada para reasoning profundo
Fuente oficialLong-context multipurpose
Repos grandes, docs pesados y analisis multimodal
El precio sube al pasar de 200k tokens de entrada
Fuente oficialCheap high-volume lane
Routing, clasificacion y jobs a escala
No deberia ser la ultima capa para decisiones delicadas
Fuente oficialMistral
Enterprise generalist
Stacks que quieren opcion europea y control de despliegue
El ecosistema es menor que OpenAI o Anthropic
Fuente oficialMistral
Code specialist
Autocompletado, FIM y tareas puras de programacion
No es la mejor opcion como generalista de producto
Fuente oficialMistral
Local-first small model
On-device, edge y asistentes internos baratos
La calidad cae antes que en modelos frontier
Fuente oficialDeepSeek
Cheap open-weight generalist
Analisis barato, routing y borradores antes de QA final
En empresa conviene poner fallback y controles de salida
Fuente oficialRuta
Empieza por la capa de routing si todavia decides entre vendor, escenario o workflow.
Ruta
Recorta la lane de proveedor antes de sobrecargar filas individuales.
Ruta
Pasa de la ficha tecnica a picks de modelo orientados a escenario.
Ruta
Salta a playbooks operativos cuando la lane de modelo ya esta bastante cerrada.