Guia de hardware

Elige la lane de hardware que encaja con el workload antes de comprarte un problema local.

Inference Hardware Guide es la capa de decision para inferencia local y edge. Responde cuando basta una NPU de portatil, cuando tiene sentido una caja con una sola GPU, cuando embeddings no necesitan una GPU cara y cuando API-first sigue siendo la jugada mas sensata.

ℹ️

Frontera de la guia

Esta pagina usa un snapshot local 2026-03. Es una guia de decision de hardware, no un leaderboard vivo de SKUs. Empieza aqui cuando la pregunta real es si la inferencia local debe existir y solo despues baja al tipo de caja.

Lanes de decision

6

De API-first a serving privado compartido

Lanes locales silenciosas

2

Opciones de escritorio o movilidad

Ruta retrieval-first

1

Embeddings antes de gastar en una gran GPU

Ruta de API privada compartida

1

Solo cuando el uso ya es estable

Como leer la guia

  1. 1

    Alcance

    Decide primero si la inferencia local debe existir

    La primera pregunta no es la marca de GPU. Es si privacidad, latencia o volumen diario justifican una lane local.

  2. 2

    Encaje

    Haz que la caja responda al workload dominante

    Chat LLM, analisis multimodal y embeddings no necesitan la misma forma de hardware.

  3. 3

    Timing

    Compra solo cuando el patron de uso ya sea bastante estable

    El serving privado prematuro crea antes un problema ops local que valor de producto.

Umbral GPU

Una GPU local solo compensa cuando la demanda ya es diaria

Si el equipo aun experimenta con prompts y el trafico es irregular, API-first suele ganar a un capex prematuro.

Realidad retrieval

Embeddings y rerank suelen pedir antes RAM disciplinada que una GPU gigante

Indexado, rerank y retrieval pueden justificar un nodo CPU+RAM mucho antes que un servidor privado de generacion.

Coste multimodal

El multimodal serio castiga antes los techos de memoria que las metricas de hype

Video, vision y documentos largos suelen romper por memoria, ancho de banda y serving sostenido, no por slogans de marca.

Banda de presupuesto

Menos de $1.5k

Sigue con API salvo que privacidad en viaje, demos offline o indexado retrieval obliguen a una lane local. Aqui caben NPUs y cajas CPU+RAM.

Banda de presupuesto

$2k-$4k

Esta es la banda real de prototipado serio. Elige una workstation de 16-24GB o una de memoria unificada alta, pero no compres las dos a la vez.

Banda de presupuesto

$6k+

Compra un nodo privado de 48-80GB solo cuando varios flujos internos ya necesitan inferencia privada estable cada semana.

VRAM

Decide clase de modelo y concurrencia mucho antes de lo que promete el marketing.

RAM

Importa para documentos largos, lotes retrieval y workstations de memoria unificada.

Ancho de banda

Decide si contexto largo y multimodal se sienten usables o no.

Consumo y ruido

Una caja que nadie quiere cerca de la mesa deja de ser practica muy rapido.

Coste ops

Drivers, colas, rollouts y monitoring destruyen los ROI ingenuos.

Tabla de decision

Perfiles de hardware por workload, cuello y presupuesto

Snapshot operativo
Perfil Mejor para LLM / multimodal / embeddings Cuellos y ops Elegir local vs seguir con API
API-first sin caja local

APIs gestionadas y puesto dev normal

Capex bajo / Opex variable Sin consumo ni ruido local relevantes.
Reasoning frontier, multimodal pesado, trafico irregular y equipos sin ops.

LLM: La mejor salida cuando el valor esta en modelos frontier y no en controlar el hosting.

Multimodal: Muy fuerte para audio, video y vision pesados sin comprar memoria local.

Embeddings: Suficiente para pilotos o indexing moderado con servicios gestionados.

Coste variable, residencia de datos y dependencia de proveedor.

Complejidad local minima, pero el gasto puede dispararse si el volumen crece sin control.

Conviene cuando todavia estas aprendiendo el shape del trafico o necesitas salir rapido.

Sigue con API cuando: Sigue siendo mejor que local cuando la demanda es irregular o depende de frontier multimodal.

Cautela: No confundas ausencia de capex con coste bajo si el equipo ya opera a diario y con volumen.

Portatil con NPU

Edge personal y privacidad on-device

Baja-media Excelente en consumo y ruido.
Copilots privados, notas locales, demos offline y helpers ligeros en movilidad.

LLM: Sirve para LLM pequenos cuantizados, routers simples y tareas locales con poco paralelismo.

Multimodal: Aceptable solo para vision o audio ligeros; no para video serio ni lotes grandes.

Embeddings: Buena para embeddings pequenos y rerank ligero en el propio dispositivo.

Memoria compartida, ancho de banda y throttling termico.

Operacion muy simple, pero sin margen para concurrencia ni serving compartido.

Cuando la prioridad es movilidad, privacidad y una UX local razonable para una persona.

Sigue con API cuando: El API gana cuando el flujo pide contexto largo, agentes de codigo o varias sesiones a la vez.

Cautela: No trates una NPU de portatil como sustituto universal de una GPU discreta.

Nodo CPU + RAM para retrieval

Embeddings, rerank e indexado interno

Baja-media Consumo moderado y poco ruido.
Pipelines de retrieval, reindexados grandes y servicios internos donde manda la RAM.

LLM: Flojo para generacion pesada; no compensa usarlo como caja principal de chat.

Multimodal: Muy limitado para vision generativa o analisis multimodal serio.

Embeddings: Excelente cuando manda RAM, disco y batches de indexing.

Tokens por segundo pobres para generacion; la latencia total cae rapido en chat real.

Barato de operar y facil de mantener frente a una GPU grande.

Conviene cuando la capa importante del producto es retrieval y no reasoning local largo.

Sigue con API cuando: Mejor API cuando tambien necesitas chat serio, multimodal o respuestas generativas de mucha calidad.

Cautela: No compres esta lane esperando que tambien resuelva el serving principal del hub.

Workstation con una GPU de 16-24GB

LLM local diario y prototipado serio

Media Consumo y ruido visibles en escritorio.
Copilots de codigo, 7B-14B cuantizados, workers locales y un equipo pequeno.

LLM: Es el sweet spot cuando el API bill empieza a doler y la privacidad ya importa.

Multimodal: Correcta para vision ligera y documentos; corta para multimodal pesado o video.

Embeddings: Muy buena para embeddings, rerank y workers baratos.

VRAM y concurrencia; el techo llega antes de lo que dice el marketing.

Empieza a pedir cooling, drivers, colas y algo de observabilidad.

Conviene cuando ya existe demanda diaria de inferencia local y el caso de uso no es solo experimental.

Sigue con API cuando: Mejor API si el uso sigue siendo esporadico o exiges frontier multimodal.

Cautela: No compres esta lane esperando 70B comodos ni varios equipos concurrentes sin colas.

Workstation de memoria unificada

Operador unico, multimodal moderado y escritorio silencioso

Media-alta Muy buen perfil de ruido y consumo para escritorio.
Documentos largos, analisis multimodal moderado y trabajo local donde el ruido importa.

LLM: Muy util para modelos cuantizados mas grandes si priorizas memoria total y estabilidad de escritorio.

Multimodal: Mejor que una GPU media para ciertos flujos multimodales de un solo operador.

Embeddings: Buena para retrieval, lote medio y analisis documental local.

Throughput sostenido menor que un servidor GPU; el cuello es ancho de banda mas precio por capacidad.

Operacion limpia para una persona; mala idea como API compartida para todo un equipo.

Conviene cuando importa mas una mesa silenciosa y mucha memoria que la concurrencia.

Sigue con API cuando: API gana cuando el uso pasa a ser compartido, continuo o con frontier multimodal duro.

Cautela: No conviertas una workstation de operador en backend comun del equipo por accidente.

Nodo privado de 48-80GB para inferencia

API interna compartida y serving privado serio

Alta Consumo alto y ruido serio.
API interna, agentes compartidos, multimodal serio y modelos locales mas grandes.

LLM: La mejor lane local cuando varios flujos dependen a diario de generacion privada.

Multimodal: La unica lane razonable si de verdad quieres multimodal serio en perimetro privado.

Embeddings: Excelente para retrieval, rerank y generacion dentro del mismo perimetro.

Capex, cooling, colas, red y disciplina operativa.

Alta complejidad: monitoring, rollouts, seguridad y continuidad ya importan.

Solo compensa con demanda estable, cumplimiento o un techo de gasto muy vigilado.

Sigue con API cuando: API sigue siendo mejor cuando el volumen aun es incierto o nadie puede operar la caja.

Cautela: Si el equipo aun esta probando prompts y casos de uso, esta lane llega demasiado pronto.

API-first sin caja local

APIs gestionadas y puesto dev normal

Capex bajo / Opex variable

Mejor para: Reasoning frontier, multimodal pesado, trafico irregular y equipos sin ops.

LLM: La mejor salida cuando el valor esta en modelos frontier y no en controlar el hosting.

Multimodal: Muy fuerte para audio, video y vision pesados sin comprar memoria local.

Embeddings: Suficiente para pilotos o indexing moderado con servicios gestionados.

Cuello: Coste variable, residencia de datos y dependencia de proveedor.

Coste ops: Complejidad local minima, pero el gasto puede dispararse si el volumen crece sin control.

Consumo y ruido: Sin consumo ni ruido local relevantes.

Elige local cuando: Conviene cuando todavia estas aprendiendo el shape del trafico o necesitas salir rapido.

Sigue con API cuando: Sigue siendo mejor que local cuando la demanda es irregular o depende de frontier multimodal.

Cautela: No confundas ausencia de capex con coste bajo si el equipo ya opera a diario y con volumen.

Portatil con NPU

Edge personal y privacidad on-device

Baja-media

Mejor para: Copilots privados, notas locales, demos offline y helpers ligeros en movilidad.

LLM: Sirve para LLM pequenos cuantizados, routers simples y tareas locales con poco paralelismo.

Multimodal: Aceptable solo para vision o audio ligeros; no para video serio ni lotes grandes.

Embeddings: Buena para embeddings pequenos y rerank ligero en el propio dispositivo.

Cuello: Memoria compartida, ancho de banda y throttling termico.

Coste ops: Operacion muy simple, pero sin margen para concurrencia ni serving compartido.

Consumo y ruido: Excelente en consumo y ruido.

Elige local cuando: Cuando la prioridad es movilidad, privacidad y una UX local razonable para una persona.

Sigue con API cuando: El API gana cuando el flujo pide contexto largo, agentes de codigo o varias sesiones a la vez.

Cautela: No trates una NPU de portatil como sustituto universal de una GPU discreta.

Nodo CPU + RAM para retrieval

Embeddings, rerank e indexado interno

Baja-media

Mejor para: Pipelines de retrieval, reindexados grandes y servicios internos donde manda la RAM.

LLM: Flojo para generacion pesada; no compensa usarlo como caja principal de chat.

Multimodal: Muy limitado para vision generativa o analisis multimodal serio.

Embeddings: Excelente cuando manda RAM, disco y batches de indexing.

Cuello: Tokens por segundo pobres para generacion; la latencia total cae rapido en chat real.

Coste ops: Barato de operar y facil de mantener frente a una GPU grande.

Consumo y ruido: Consumo moderado y poco ruido.

Elige local cuando: Conviene cuando la capa importante del producto es retrieval y no reasoning local largo.

Sigue con API cuando: Mejor API cuando tambien necesitas chat serio, multimodal o respuestas generativas de mucha calidad.

Cautela: No compres esta lane esperando que tambien resuelva el serving principal del hub.

Workstation con una GPU de 16-24GB

LLM local diario y prototipado serio

Media

Mejor para: Copilots de codigo, 7B-14B cuantizados, workers locales y un equipo pequeno.

LLM: Es el sweet spot cuando el API bill empieza a doler y la privacidad ya importa.

Multimodal: Correcta para vision ligera y documentos; corta para multimodal pesado o video.

Embeddings: Muy buena para embeddings, rerank y workers baratos.

Cuello: VRAM y concurrencia; el techo llega antes de lo que dice el marketing.

Coste ops: Empieza a pedir cooling, drivers, colas y algo de observabilidad.

Consumo y ruido: Consumo y ruido visibles en escritorio.

Elige local cuando: Conviene cuando ya existe demanda diaria de inferencia local y el caso de uso no es solo experimental.

Sigue con API cuando: Mejor API si el uso sigue siendo esporadico o exiges frontier multimodal.

Cautela: No compres esta lane esperando 70B comodos ni varios equipos concurrentes sin colas.

Workstation de memoria unificada

Operador unico, multimodal moderado y escritorio silencioso

Media-alta

Mejor para: Documentos largos, analisis multimodal moderado y trabajo local donde el ruido importa.

LLM: Muy util para modelos cuantizados mas grandes si priorizas memoria total y estabilidad de escritorio.

Multimodal: Mejor que una GPU media para ciertos flujos multimodales de un solo operador.

Embeddings: Buena para retrieval, lote medio y analisis documental local.

Cuello: Throughput sostenido menor que un servidor GPU; el cuello es ancho de banda mas precio por capacidad.

Coste ops: Operacion limpia para una persona; mala idea como API compartida para todo un equipo.

Consumo y ruido: Muy buen perfil de ruido y consumo para escritorio.

Elige local cuando: Conviene cuando importa mas una mesa silenciosa y mucha memoria que la concurrencia.

Sigue con API cuando: API gana cuando el uso pasa a ser compartido, continuo o con frontier multimodal duro.

Cautela: No conviertas una workstation de operador en backend comun del equipo por accidente.

Nodo privado de 48-80GB para inferencia

API interna compartida y serving privado serio

Alta

Mejor para: API interna, agentes compartidos, multimodal serio y modelos locales mas grandes.

LLM: La mejor lane local cuando varios flujos dependen a diario de generacion privada.

Multimodal: La unica lane razonable si de verdad quieres multimodal serio en perimetro privado.

Embeddings: Excelente para retrieval, rerank y generacion dentro del mismo perimetro.

Cuello: Capex, cooling, colas, red y disciplina operativa.

Coste ops: Alta complejidad: monitoring, rollouts, seguridad y continuidad ya importan.

Consumo y ruido: Consumo alto y ruido serio.

Elige local cuando: Solo compensa con demanda estable, cumplimiento o un techo de gasto muy vigilado.

Sigue con API cuando: API sigue siendo mejor cuando el volumen aun es incierto o nadie puede operar la caja.

Cautela: Si el equipo aun esta probando prompts y casos de uso, esta lane llega demasiado pronto.

Ruta hardware

Empieza por la ruta de hardware si aun necesitas orientacion antes de decidir presupuesto.

Ruta LLM

Elige la lane de modelo antes de comprar una caja para el workload equivocado.

Agent stack board

Usalo cuando el hardware se esta justificando por agentes, browser workers u orquestacion.

Workflow recipes

Salta a recetas operativas cuando el posture de serving ya esta bastante acotado.