Directorio de decision

Este directorio sirve para elegir stack con menos ruido, no para navegar hype.

Empieza aqui cuando la pregunta real es que modelo encaja, que posture de despliegue conviene o que ruta abrir despues. La idea es recortar decisiones pronto y dejar solo superficies utiles.

Flujo visual de decision

Abre con una capa cinematica y luego recorta por matrix y ruta.

Esta seccion mantiene en una sola pasada visual decisiones de modelo, proveedor y orquestacion antes de saltar a fichas.

Matrix y postura de proveedor primero
Lane de modelos Matrix y postura de proveedor primero
Orquestacion antes de comprar framework
Lane de agentes Orquestacion antes de comprar framework
Recetas, prompts y hardware en secuencia
Lane operativa Recetas, prompts y hardware en secuencia
💡

Como usar este directorio

Usa primero la matrix cuando aun estas decidiendo proveedores, y salta despues a prompts, agentes, hardware o fichas concretas cuando el abanico ya sea mas pequeno.

Empieza por la pregunta operativa, no por la marca del modelo

La ruta mas rapida suele ser matrix -> ruta -> ficha. Asi mantienes evaluacion, prompting y despliegue en el orden correcto.

Biblioteca de prompts

Fichas vivas

2

Notas actuales

Filas en matrix

10

5 proveedores

Ruta open-weight

3

Opciones router o self-host

Input barato

7

Filas por debajo de $1 / 1M input

Flujo de lectura del directorio

  1. 1

    Caso de uso

    Empieza por el trabajo y por los limites de hosting

    Decide si necesitas reasoning frontier, throughput alto, privacidad local o un especialista de codigo.

  2. 2

    Comparacion

    Usa la matrix para recortar proveedores

    Contexto, gasto y posture de despliegue reducen opciones antes que el hype.

  3. 3

    Accion

    Salta despues a la ruta que encaja con el problema

    Entra en agentes, prompts, hardware o una ficha viva solo cuando la capa de modelos ya esta clara.

Ruta LLM

Elige antes la capa LLM correcta

Abre la ruta LLM cuando todavia decides entre matrix, provider compare, model fit o workflow recipes.

Matrix

Compara modelos antes de probar

Empieza por contexto, despliegue y coste en vez de saltar entre paginas de proveedor.

Providers

Compara vendors antes de comparar filas

Usa postura de proveedor, despliegue y apertura para recortar el mercado antes de probar modelos.

Model fit

Elige la mejor lane de modelo segun la tarea

Usa picks por escenario cuando la matrix te da demasiada tecnica y necesitas recomendacion mas rapida.

Stack board

Decide el patron de stack antes del framework

Compara pipelines, memoria, browser automation y rutas multiagente antes de implementar.

Recipes

Pasa de elegir a operar

Abre recetas practicas para coding review, retrieval, browser flows y setups local-first.

Agentes

Frameworks y orquestacion

Entra en memoria, validacion y orquestacion cuando ya tengas clara la capa de modelos.

Prompts

Sistemas de prompts

Usa sistemas reutilizables cuando el problema es la calidad del flujo y no solo el modelo.

Hardware

IA local y workstation

Revisa NPUs, equipos locales y edge antes de comprar hardware a ciegas.

Inference

Guia de hardware de inferencia

Elige entre API-first, NPUs, cajas de una GPU y nodos privados con menos costes ocultos.

Open source

Stacks con open weights

Salta a rutas self-host y router-friendly cuando importa mas la flexibilidad que la marca.

Primero la matrix

Usa un filtro tecnico antes de leer opiniones

Snapshot de proveedores

Este preview vive en local y se apoya en documentacion oficial de proveedor. Sirve para decidir mas rapido entre contexto, gasto, hosting y encaje operativo.

Estado del snapshot

Modo de fuente

Dataset local curado con enlaces oficiales de proveedor. Sin dependencia de JSON externo ni archivos generados.

Fecha del snapshot

2026-03

Uso principal

Seleccion de proveedor, routing y decisiones de hosting antes del trabajo de implementacion.

Comparativa tecnica

Un preview de la matrix local antes de entrar en la surface dedicada.

Preview de la matriz tecnica LLM

Usa este preview para separar rutas frontier, baratas, local-first y especialistas de codigo antes de probar.

Modelos 6
Con opcion open-weight 0
Por debajo de $1 input 3
Modelo Contexto Precio I/O Despliegue Mejor para Cautela
GPT-5.4 OpenAI

Frontier reasoning

Frontera para codigo y razonamiento Media Pesos cerrados
272k std / 1.05M extended

Text + image in

$2.50

Entrada / 1M

$15.00

Salida / 1M

Managed API / Codex Repos grandes, tareas de agente y reasoning con contexto largo

La salida se encarece rapido en sesiones largas

Fuente oficial: OpenAI pricing
GPT-5.4 mini OpenAI

High-throughput generalist

Equilibrado para subagentes Media-baja Pesos cerrados
400k

Text + image in

$0.75

Entrada / 1M

$4.50

Salida / 1M

Managed API / Codex Subagentes, pipelines y automatizacion con presupuesto

Menos margen que el frontier para tareas complejas

Fuente oficial: OpenAI model note
Claude Sonnet 4 Anthropic

Code review and planning

Fuerte para revision y planes largos Media Pesos cerrados
200k base / 1M beta

Text + image in

$3.00

Entrada / 1M

$15.00

Salida / 1M

Claude API / Claude Code Code review, docs largos y orquestacion con memoria

Conviene vigilar gasto cuando se activa contexto largo

Fuente oficial: Anthropic pricing
Claude Haiku 3.5 Anthropic

Fast operational lane

Rapido para triage y borradores Baja Pesos cerrados
200k

Text + image in

$0.80

Entrada / 1M

$4.00

Salida / 1M

Claude API Clasificacion, copilots internos y guardrails baratos

No es la mejor ultima pasada para reasoning profundo

Fuente oficial: Anthropic pricing
Gemini 2.5 Pro Google

Long-context multipurpose

Fuerte en codigo y contexto enorme Media Pesos cerrados
1,048,576

Text + image + video + audio

$1.25-$2.50

Entrada / 1M

$10.00-$15.00

Salida / 1M

Gemini API / Vertex Repos grandes, docs pesados y analisis multimodal

El precio sube al pasar de 200k tokens de entrada

Fuente oficial: Gemini pricing
Gemini 2.5 Flash-Lite Google

Cheap high-volume lane

Eficiente para throughput Baja Pesos cerrados
1,048,576

Text + image + video + audio

$0.10

Entrada / 1M

$0.40

Salida / 1M

Gemini API / Vertex Routing, clasificacion y jobs a escala

No deberia ser la ultima capa para decisiones delicadas

Fuente oficial: Gemini pricing

OpenAI

GPT-5.4

Cerrado

Frontier reasoning

Contexto
272k std / 1.05M extended
Entrada
$2.50
Salida
$15.00
Deploy
Managed API / Codex

Repos grandes, tareas de agente y reasoning con contexto largo

La salida se encarece rapido en sesiones largas

Fuente oficial

OpenAI

GPT-5.4 mini

Cerrado

High-throughput generalist

Contexto
400k
Entrada
$0.75
Salida
$4.50
Deploy
Managed API / Codex

Subagentes, pipelines y automatizacion con presupuesto

Menos margen que el frontier para tareas complejas

Fuente oficial

Anthropic

Claude Sonnet 4

Cerrado

Code review and planning

Contexto
200k base / 1M beta
Entrada
$3.00
Salida
$15.00
Deploy
Claude API / Claude Code

Code review, docs largos y orquestacion con memoria

Conviene vigilar gasto cuando se activa contexto largo

Fuente oficial

Anthropic

Claude Haiku 3.5

Cerrado

Fast operational lane

Contexto
200k
Entrada
$0.80
Salida
$4.00
Deploy
Claude API

Clasificacion, copilots internos y guardrails baratos

No es la mejor ultima pasada para reasoning profundo

Fuente oficial

Google

Gemini 2.5 Pro

Cerrado

Long-context multipurpose

Contexto
1,048,576
Entrada
$1.25-$2.50
Salida
$10.00-$15.00
Deploy
Gemini API / Vertex

Repos grandes, docs pesados y analisis multimodal

El precio sube al pasar de 200k tokens de entrada

Fuente oficial

Google

Gemini 2.5 Flash-Lite

Cerrado

Cheap high-volume lane

Contexto
1,048,576
Entrada
$0.10
Salida
$0.40
Deploy
Gemini API / Vertex

Routing, clasificacion y jobs a escala

No deberia ser la ultima capa para decisiones delicadas

Fuente oficial

Inference y deployment

Elige antes la ruta de hosting para no encarecer el debate de proveedor

Si la siguiente pregunta ya es hardware, presupuesto y cuellos de botella, salta a la guia de inferencia dedicada en vez de quedarte en esta capa de routing mas ligera.

Ruta de API gestionada

Encaja cuando importa mas salir rapido que controlar el hosting y el equipo necesita tooling del proveedor.

Ruta de inferencia privada

Conviene cuando politica, residencia de datos o techo de coste obligan a cerrar mas el perimetro.

Ruta edge y on-device

Encaja cuando latencia, uso offline o privacidad local valen mas que liderar benchmarks.

Stack open-source

Mantiene visibles las opciones open-weight como ruta real y no solo como fallback

Frontier con open weights

Usa esta ruta cuando sigues necesitando reasoning fuerte pero quieres router o self-host.

Especialistas de codigo

Separa modelos de programacion de los generalistas para no mezclar autocomplete con decisiones de stack.

Operadores locales pequenos

Mantiene una ruta de modelos pequenos para edge, helpers internos y pilotos privados sin depender de nube.

Fichas y saltos curados

Mantiene el catalogo honesto: pocas fichas vivas y las rutas que de verdad importan