Usa esta ruta para orientar decisiones de hardware antes de convertirlas en capex.
La mayoria de equipos no necesita un rack el dia uno. Necesita una lectura rapida de privacidad, demanda diaria y del cuello que de verdad va a doler primero.
Frontera
Lanes de referencia
De API-first a nodo privado
Lectura rapida
presupuesto, cuello, privacidad
Bandas VRAM
NPU / 16-24GB / 48-80GB
Serving compartido
Solo con demanda estable
Empieza por privacidad, forma del workload y uso diario.
Tier de orientacion
Sigue en API-first o usa una lane local muy ligera mientras la forma del trafico siga siendo incierta.
Tier workstation
Pasa a GPU o a una mesa de alta memoria solo cuando la inferencia local ya sea un habito diario.
Tier serving
Los nodos privados compartidos solo tienen sentido cuando demanda, privacidad y soporte ya estan demostrados.
- Los equipos sobrecompran GPU antes de saber si la capa importante es retrieval, chat o multimodal.
- Las NPUs de portatil se venden como respuesta universal cuando solo valen para lanes locales ligeras.
- El coste ops se ignora hasta que la caja se convierte en una API interna sin dueno claro.
Snapshot de la ruta hardware
| Perfil | Mejor uso | Banda de presupuesto | Encaje local | Cautela |
|---|---|---|---|---|
| API-first | Reasoning frontier y demanda irregular | Capex bajo | Mejor antes de comprar local | Gasto variable y lock-in |
| Portatil con NPU | Privacidad movil y ayuda local ligera | Baja-media | Modelos locales pequenos | Ancho de banda y calor |
| Nodo CPU + RAM | Embeddings y rerank | Baja-media | Stacks retrieval-first | Throughput generativo pobre |
| Workstation 16-24GB | Prototipado local diario | Media | Clase 7B-14B | Techo VRAM y ruido de mesa |
| Nodo privado 48-80GB | API interna compartida | Alta | Serving interno serio | Sobrecoste ops |
Inference hardware guide
La capa practica de decision para API-first, escritorios silenciosos, cajas retrieval y nodos privados.
Agent stack board
Usalo cuando la demanda de hardware se esta justificando por agentes, browser workers u orquestacion.
Workflow recipes
Salta a flujos repetibles cuando el posture de serving ya esta mas acotado.