Ruta hardware

Usa esta ruta para orientar decisiones de hardware antes de convertirlas en capex.

La mayoria de equipos no necesita un rack el dia uno. Necesita una lectura rapida de privacidad, demanda diaria y del cuello que de verdad va a doler primero.

Abrir guia completa Workflow recipes

💡

Frontera

Trata esta pagina como la capa de routing de hardware. Usala para orientar la conversacion y salta despues a la guia de inferencia dedicada para bandas de presupuesto, cuellos y decisiones reales de compra-vs-API.

Lanes de referencia

5 ↑

De API-first a nodo privado

Lectura rapida

3 •

presupuesto, cuello, privacidad

Bandas VRAM

3 ↑

NPU / 16-24GB / 48-80GB

Serving compartido

1 •

Solo con demanda estable

Logica de seleccion

Empieza por privacidad, forma del workload y uso diario.

Tier de orientacion

Sigue en API-first o usa una lane local muy ligera mientras la forma del trafico siga siendo incierta.

Tier workstation

Pasa a GPU o a una mesa de alta memoria solo cuando la inferencia local ya sea un habito diario.

Tier serving

Los nodos privados compartidos solo tienen sentido cuando demanda, privacidad y soporte ya estan demostrados.

Lo que suele romperse

Los equipos sobrecompran GPU antes de saber si la capa importante es retrieval, chat o multimodal.
Las NPUs de portatil se venden como respuesta universal cuando solo valen para lanes locales ligeras.
El coste ops se ignora hasta que la caja se convierte en una API interna sin dueno claro.

Snapshot de la ruta hardware

Perfil	Mejor uso	Banda de presupuesto	Encaje local	Cautela
API-first	Reasoning frontier y demanda irregular	Capex bajo	Mejor antes de comprar local	Gasto variable y lock-in
Portatil con NPU	Privacidad movil y ayuda local ligera	Baja-media	Modelos locales pequenos	Ancho de banda y calor
Nodo CPU + RAM	Embeddings y rerank	Baja-media	Stacks retrieval-first	Throughput generativo pobre
Workstation 16-24GB	Prototipado local diario	Media	Clase 7B-14B	Techo VRAM y ruido de mesa
Nodo privado 48-80GB	API interna compartida	Alta	Serving interno serio	Sobrecoste ops

hardwaredecision

Inference hardware guide

La capa practica de decision para API-first, escritorios silenciosos, cajas retrieval y nodos privados.

agentsserving

Agent stack board

Usalo cuando la demanda de hardware se esta justificando por agentes, browser workers u orquestacion.

workflowsops

Workflow recipes

Salta a flujos repetibles cuando el posture de serving ya esta mas acotado.