Ruta hardware

Usa esta ruta para orientar decisiones de hardware antes de convertirlas en capex.

La mayoria de equipos no necesita un rack el dia uno. Necesita una lectura rapida de privacidad, demanda diaria y del cuello que de verdad va a doler primero.

Usa la guia de inferencia dedicada cuando la siguiente pregunta ya es presupuesto, cuello o API-vs-local.

Esta ruta se queda ligera a proposito. La capa profunda es donde se vuelven explicitas las bandas de presupuesto, escritorios silenciosos, nodos retrieval y decisiones de serving privado.

Inference hardware guide
💡

Frontera

Trata esta pagina como la capa de routing de hardware. Usala para orientar la conversacion y salta despues a la guia de inferencia dedicada para bandas de presupuesto, cuellos y decisiones reales de compra-vs-API.

Lanes de referencia

5

De API-first a nodo privado

Lectura rapida

3

presupuesto, cuello, privacidad

Bandas VRAM

3

NPU / 16-24GB / 48-80GB

Serving compartido

1

Solo con demanda estable

Logica de seleccion

Empieza por privacidad, forma del workload y uso diario.

Tier de orientacion

Sigue en API-first o usa una lane local muy ligera mientras la forma del trafico siga siendo incierta.

Tier workstation

Pasa a GPU o a una mesa de alta memoria solo cuando la inferencia local ya sea un habito diario.

Tier serving

Los nodos privados compartidos solo tienen sentido cuando demanda, privacidad y soporte ya estan demostrados.

Lo que suele romperse

  • Los equipos sobrecompran GPU antes de saber si la capa importante es retrieval, chat o multimodal.
  • Las NPUs de portatil se venden como respuesta universal cuando solo valen para lanes locales ligeras.
  • El coste ops se ignora hasta que la caja se convierte en una API interna sin dueno claro.

Snapshot de la ruta hardware

Perfil Mejor uso Banda de presupuesto Encaje local Cautela
API-first Reasoning frontier y demanda irregular Capex bajo Mejor antes de comprar local Gasto variable y lock-in
Portatil con NPU Privacidad movil y ayuda local ligera Baja-media Modelos locales pequenos Ancho de banda y calor
Nodo CPU + RAM Embeddings y rerank Baja-media Stacks retrieval-first Throughput generativo pobre
Workstation 16-24GB Prototipado local diario Media Clase 7B-14B Techo VRAM y ruido de mesa
Nodo privado 48-80GB API interna compartida Alta Serving interno serio Sobrecoste ops
hardwaredecision

Inference hardware guide

La capa practica de decision para API-first, escritorios silenciosos, cajas retrieval y nodos privados.

agentsserving

Agent stack board

Usalo cuando la demanda de hardware se esta justificando por agentes, browser workers u orquestacion.

workflowsops

Workflow recipes

Salta a flujos repetibles cuando el posture de serving ya esta mas acotado.