Umbral GPU
Una GPU local solo compensa cuando la demanda ya es diaria
Si el equipo aun experimenta con prompts y el trafico es irregular, API-first suele ganar a un capex prematuro.
Inference Hardware Guide es la capa de decision para inferencia local y edge. Responde cuando basta una NPU de portatil, cuando tiene sentido una caja con una sola GPU, cuando embeddings no necesitan una GPU cara y cuando API-first sigue siendo la jugada mas sensata.
Frontera de la guia
Lanes de decision
De API-first a serving privado compartido
Lanes locales silenciosas
Opciones de escritorio o movilidad
Ruta retrieval-first
Embeddings antes de gastar en una gran GPU
Ruta de API privada compartida
Solo cuando el uso ya es estable
Alcance
La primera pregunta no es la marca de GPU. Es si privacidad, latencia o volumen diario justifican una lane local.
Encaje
Chat LLM, analisis multimodal y embeddings no necesitan la misma forma de hardware.
Timing
El serving privado prematuro crea antes un problema ops local que valor de producto.
Umbral GPU
Si el equipo aun experimenta con prompts y el trafico es irregular, API-first suele ganar a un capex prematuro.
Realidad retrieval
Indexado, rerank y retrieval pueden justificar un nodo CPU+RAM mucho antes que un servidor privado de generacion.
Coste multimodal
Video, vision y documentos largos suelen romper por memoria, ancho de banda y serving sostenido, no por slogans de marca.
Sigue con API salvo que privacidad en viaje, demos offline o indexado retrieval obliguen a una lane local. Aqui caben NPUs y cajas CPU+RAM.
Esta es la banda real de prototipado serio. Elige una workstation de 16-24GB o una de memoria unificada alta, pero no compres las dos a la vez.
Compra un nodo privado de 48-80GB solo cuando varios flujos internos ya necesitan inferencia privada estable cada semana.
Decide clase de modelo y concurrencia mucho antes de lo que promete el marketing.
Importa para documentos largos, lotes retrieval y workstations de memoria unificada.
Decide si contexto largo y multimodal se sienten usables o no.
Una caja que nadie quiere cerca de la mesa deja de ser practica muy rapido.
Drivers, colas, rollouts y monitoring destruyen los ROI ingenuos.
| Perfil | Mejor para | LLM / multimodal / embeddings | Cuellos y ops | Elegir local vs seguir con API |
|---|---|---|---|---|
| API-first sin caja local APIs gestionadas y puesto dev normal Capex bajo / Opex variable Sin consumo ni ruido local relevantes. | Reasoning frontier, multimodal pesado, trafico irregular y equipos sin ops. | LLM: La mejor salida cuando el valor esta en modelos frontier y no en controlar el hosting. Multimodal: Muy fuerte para audio, video y vision pesados sin comprar memoria local. Embeddings: Suficiente para pilotos o indexing moderado con servicios gestionados. | Coste variable, residencia de datos y dependencia de proveedor. Complejidad local minima, pero el gasto puede dispararse si el volumen crece sin control. | Conviene cuando todavia estas aprendiendo el shape del trafico o necesitas salir rapido. Sigue con API cuando: Sigue siendo mejor que local cuando la demanda es irregular o depende de frontier multimodal. Cautela: No confundas ausencia de capex con coste bajo si el equipo ya opera a diario y con volumen. |
| Portatil con NPU Edge personal y privacidad on-device Baja-media Excelente en consumo y ruido. | Copilots privados, notas locales, demos offline y helpers ligeros en movilidad. | LLM: Sirve para LLM pequenos cuantizados, routers simples y tareas locales con poco paralelismo. Multimodal: Aceptable solo para vision o audio ligeros; no para video serio ni lotes grandes. Embeddings: Buena para embeddings pequenos y rerank ligero en el propio dispositivo. | Memoria compartida, ancho de banda y throttling termico. Operacion muy simple, pero sin margen para concurrencia ni serving compartido. | Cuando la prioridad es movilidad, privacidad y una UX local razonable para una persona. Sigue con API cuando: El API gana cuando el flujo pide contexto largo, agentes de codigo o varias sesiones a la vez. Cautela: No trates una NPU de portatil como sustituto universal de una GPU discreta. |
| Nodo CPU + RAM para retrieval Embeddings, rerank e indexado interno Baja-media Consumo moderado y poco ruido. | Pipelines de retrieval, reindexados grandes y servicios internos donde manda la RAM. | LLM: Flojo para generacion pesada; no compensa usarlo como caja principal de chat. Multimodal: Muy limitado para vision generativa o analisis multimodal serio. Embeddings: Excelente cuando manda RAM, disco y batches de indexing. | Tokens por segundo pobres para generacion; la latencia total cae rapido en chat real. Barato de operar y facil de mantener frente a una GPU grande. | Conviene cuando la capa importante del producto es retrieval y no reasoning local largo. Sigue con API cuando: Mejor API cuando tambien necesitas chat serio, multimodal o respuestas generativas de mucha calidad. Cautela: No compres esta lane esperando que tambien resuelva el serving principal del hub. |
| Workstation con una GPU de 16-24GB LLM local diario y prototipado serio Media Consumo y ruido visibles en escritorio. | Copilots de codigo, 7B-14B cuantizados, workers locales y un equipo pequeno. | LLM: Es el sweet spot cuando el API bill empieza a doler y la privacidad ya importa. Multimodal: Correcta para vision ligera y documentos; corta para multimodal pesado o video. Embeddings: Muy buena para embeddings, rerank y workers baratos. | VRAM y concurrencia; el techo llega antes de lo que dice el marketing. Empieza a pedir cooling, drivers, colas y algo de observabilidad. | Conviene cuando ya existe demanda diaria de inferencia local y el caso de uso no es solo experimental. Sigue con API cuando: Mejor API si el uso sigue siendo esporadico o exiges frontier multimodal. Cautela: No compres esta lane esperando 70B comodos ni varios equipos concurrentes sin colas. |
| Workstation de memoria unificada Operador unico, multimodal moderado y escritorio silencioso Media-alta Muy buen perfil de ruido y consumo para escritorio. | Documentos largos, analisis multimodal moderado y trabajo local donde el ruido importa. | LLM: Muy util para modelos cuantizados mas grandes si priorizas memoria total y estabilidad de escritorio. Multimodal: Mejor que una GPU media para ciertos flujos multimodales de un solo operador. Embeddings: Buena para retrieval, lote medio y analisis documental local. | Throughput sostenido menor que un servidor GPU; el cuello es ancho de banda mas precio por capacidad. Operacion limpia para una persona; mala idea como API compartida para todo un equipo. | Conviene cuando importa mas una mesa silenciosa y mucha memoria que la concurrencia. Sigue con API cuando: API gana cuando el uso pasa a ser compartido, continuo o con frontier multimodal duro. Cautela: No conviertas una workstation de operador en backend comun del equipo por accidente. |
| Nodo privado de 48-80GB para inferencia API interna compartida y serving privado serio Alta Consumo alto y ruido serio. | API interna, agentes compartidos, multimodal serio y modelos locales mas grandes. | LLM: La mejor lane local cuando varios flujos dependen a diario de generacion privada. Multimodal: La unica lane razonable si de verdad quieres multimodal serio en perimetro privado. Embeddings: Excelente para retrieval, rerank y generacion dentro del mismo perimetro. | Capex, cooling, colas, red y disciplina operativa. Alta complejidad: monitoring, rollouts, seguridad y continuidad ya importan. | Solo compensa con demanda estable, cumplimiento o un techo de gasto muy vigilado. Sigue con API cuando: API sigue siendo mejor cuando el volumen aun es incierto o nadie puede operar la caja. Cautela: Si el equipo aun esta probando prompts y casos de uso, esta lane llega demasiado pronto. |
API-first sin caja local
Mejor para: Reasoning frontier, multimodal pesado, trafico irregular y equipos sin ops.
LLM: La mejor salida cuando el valor esta en modelos frontier y no en controlar el hosting.
Multimodal: Muy fuerte para audio, video y vision pesados sin comprar memoria local.
Embeddings: Suficiente para pilotos o indexing moderado con servicios gestionados.
Cuello: Coste variable, residencia de datos y dependencia de proveedor.
Coste ops: Complejidad local minima, pero el gasto puede dispararse si el volumen crece sin control.
Consumo y ruido: Sin consumo ni ruido local relevantes.
Elige local cuando: Conviene cuando todavia estas aprendiendo el shape del trafico o necesitas salir rapido.
Sigue con API cuando: Sigue siendo mejor que local cuando la demanda es irregular o depende de frontier multimodal.
Cautela: No confundas ausencia de capex con coste bajo si el equipo ya opera a diario y con volumen.
Portatil con NPU
Mejor para: Copilots privados, notas locales, demos offline y helpers ligeros en movilidad.
LLM: Sirve para LLM pequenos cuantizados, routers simples y tareas locales con poco paralelismo.
Multimodal: Aceptable solo para vision o audio ligeros; no para video serio ni lotes grandes.
Embeddings: Buena para embeddings pequenos y rerank ligero en el propio dispositivo.
Cuello: Memoria compartida, ancho de banda y throttling termico.
Coste ops: Operacion muy simple, pero sin margen para concurrencia ni serving compartido.
Consumo y ruido: Excelente en consumo y ruido.
Elige local cuando: Cuando la prioridad es movilidad, privacidad y una UX local razonable para una persona.
Sigue con API cuando: El API gana cuando el flujo pide contexto largo, agentes de codigo o varias sesiones a la vez.
Cautela: No trates una NPU de portatil como sustituto universal de una GPU discreta.
Nodo CPU + RAM para retrieval
Mejor para: Pipelines de retrieval, reindexados grandes y servicios internos donde manda la RAM.
LLM: Flojo para generacion pesada; no compensa usarlo como caja principal de chat.
Multimodal: Muy limitado para vision generativa o analisis multimodal serio.
Embeddings: Excelente cuando manda RAM, disco y batches de indexing.
Cuello: Tokens por segundo pobres para generacion; la latencia total cae rapido en chat real.
Coste ops: Barato de operar y facil de mantener frente a una GPU grande.
Consumo y ruido: Consumo moderado y poco ruido.
Elige local cuando: Conviene cuando la capa importante del producto es retrieval y no reasoning local largo.
Sigue con API cuando: Mejor API cuando tambien necesitas chat serio, multimodal o respuestas generativas de mucha calidad.
Cautela: No compres esta lane esperando que tambien resuelva el serving principal del hub.
Workstation con una GPU de 16-24GB
Mejor para: Copilots de codigo, 7B-14B cuantizados, workers locales y un equipo pequeno.
LLM: Es el sweet spot cuando el API bill empieza a doler y la privacidad ya importa.
Multimodal: Correcta para vision ligera y documentos; corta para multimodal pesado o video.
Embeddings: Muy buena para embeddings, rerank y workers baratos.
Cuello: VRAM y concurrencia; el techo llega antes de lo que dice el marketing.
Coste ops: Empieza a pedir cooling, drivers, colas y algo de observabilidad.
Consumo y ruido: Consumo y ruido visibles en escritorio.
Elige local cuando: Conviene cuando ya existe demanda diaria de inferencia local y el caso de uso no es solo experimental.
Sigue con API cuando: Mejor API si el uso sigue siendo esporadico o exiges frontier multimodal.
Cautela: No compres esta lane esperando 70B comodos ni varios equipos concurrentes sin colas.
Workstation de memoria unificada
Mejor para: Documentos largos, analisis multimodal moderado y trabajo local donde el ruido importa.
LLM: Muy util para modelos cuantizados mas grandes si priorizas memoria total y estabilidad de escritorio.
Multimodal: Mejor que una GPU media para ciertos flujos multimodales de un solo operador.
Embeddings: Buena para retrieval, lote medio y analisis documental local.
Cuello: Throughput sostenido menor que un servidor GPU; el cuello es ancho de banda mas precio por capacidad.
Coste ops: Operacion limpia para una persona; mala idea como API compartida para todo un equipo.
Consumo y ruido: Muy buen perfil de ruido y consumo para escritorio.
Elige local cuando: Conviene cuando importa mas una mesa silenciosa y mucha memoria que la concurrencia.
Sigue con API cuando: API gana cuando el uso pasa a ser compartido, continuo o con frontier multimodal duro.
Cautela: No conviertas una workstation de operador en backend comun del equipo por accidente.
Nodo privado de 48-80GB para inferencia
Mejor para: API interna, agentes compartidos, multimodal serio y modelos locales mas grandes.
LLM: La mejor lane local cuando varios flujos dependen a diario de generacion privada.
Multimodal: La unica lane razonable si de verdad quieres multimodal serio en perimetro privado.
Embeddings: Excelente para retrieval, rerank y generacion dentro del mismo perimetro.
Cuello: Capex, cooling, colas, red y disciplina operativa.
Coste ops: Alta complejidad: monitoring, rollouts, seguridad y continuidad ya importan.
Consumo y ruido: Consumo alto y ruido serio.
Elige local cuando: Solo compensa con demanda estable, cumplimiento o un techo de gasto muy vigilado.
Sigue con API cuando: API sigue siendo mejor cuando el volumen aun es incierto o nadie puede operar la caja.
Cautela: Si el equipo aun esta probando prompts y casos de uso, esta lane llega demasiado pronto.
Empieza por la ruta de hardware si aun necesitas orientacion antes de decidir presupuesto.
Elige la lane de modelo antes de comprar una caja para el workload equivocado.
Usalo cuando el hardware se esta justificando por agentes, browser workers u orquestacion.
Salta a recetas operativas cuando el posture de serving ya esta bastante acotado.