LM Studio es la herramienta más popular para ejecutar IA local en 2026, pero incluso los usuarios con experiencia se topan con errores frustrantes: modelos que no cargan, GPU que no se detecta, respuestas lentas a pesar de tener buena tarjeta gráfica, o un servidor API que simplemente no responde. La buena noticia es que la gran mayoría de estos problemas tienen solución directa y sin necesidad de reinstalar nada. Esta guía reúne los errores más reportados por la comunidad, explica sus causas reales y te da los pasos exactos para resolverlos.
Error 1: “Out of Memory” al Cargar el Modelo
Este es el error más común, especialmente en equipos con 8 GB de VRAM o menos. Aparece en el log de LM Studio justo cuando intentas cargar un modelo, y simplemente se cancela la carga sin mayor explicación.
¿Por qué ocurre?
El modelo que elegiste, combinado con la longitud de contexto configurada, no cabe en tu VRAM disponible. Muchos usuarios no se dan cuenta de que el contexto consume VRAM adicional: cada duplicación de la longitud de contexto aproximadamente duplica la memoria extra requerida. Si tienes una GPU de 8 GB y configuras un contexto de 32.768 tokens con Llama 3.1 8B, estás pidiendo más de 9-10 GB de VRAM total, lo que provoca el error automáticamente.
Cómo solucionarlo (en orden de efectividad):
- Reduce la longitud de contexto: Ve al panel derecho del modelo → busca “Context Length” → baja de 32.768 a 8.192 o incluso 4.096. Esto suele ser la solución más rápida.
- Reduce el número de GPU Layers: En el mismo panel, baja el valor de GPU Layers de -1 (automático) a un número menor como 20 o 15. Así el resto de capas usa RAM del sistema en lugar de VRAM.
- Activa CPU Fallback: Esta opción permite que las capas que no caben en VRAM se procesen en la RAM + CPU. Será más lento (~15-20 tok/s), pero el modelo cargará sin errores.
- Cambia la cuantización: Si usas Q5_K_M, prueba Q4_K_M o incluso Q3_K_M. Cada nivel de cuantización más bajo reduce el tamaño en disco y en VRAM entre un 15% y 25%.
- Prueba un modelo más pequeño: Llama 3.2 3B Q4 ocupa ~2,5 GB de VRAM, mientras que Llama 3.1 8B Q4 ocupa ~5 GB. Si el presupuesto de VRAM es ajustado, el modelo más pequeño puede ser más que suficiente para muchos casos de uso.
Error 2: GPU No Detectada o No Aparece en la Barra Inferior
LM Studio muestra en la barra inferior de la aplicación la GPU detectada y su VRAM disponible. Si ves solo “CPU” o no aparece ninguna GPU a pesar de tener una tarjeta gráfica instalada, tienes un problema de configuración o drivers.
Causas por fabricante:
- NVIDIA: Generalmente se detecta de forma automática vía CUDA. Si no aparece, los drivers están desactualizados o el runtime de CUDA que viene con LM Studio no coincide con tu versión de driver.
- AMD: Las GPUs AMD requieren LM Studio 0.3 o superior y los drivers Adrenalin actualizados con soporte Vulkan/ROCm. En versiones anteriores de LM Studio, AMD no era soportado en Windows.
- Intel Arc: Soporte experimental vía Vulkan, puede fallar en algunas versiones.
Cómo solucionarlo:
- Actualiza LM Studio a la versión más reciente desde lmstudio.ai. Muchos problemas de detección de GPU se corrigen en actualizaciones.
- Actualiza los drivers de GPU: Para NVIDIA, descarga el driver más reciente desde nvidia.com. Para AMD, instala los drivers Adrenalin desde amd.com. Este paso soluciona la mayoría de los casos.
- Actualiza el runtime desde LM Studio: Ve a Configuración → Runtime → haz clic en actualizar tanto el runtime de CUDA (o ROCm/Vulkan para AMD) como el de CPU. Un usuario reportó que exactamente este paso resolvió su problema luego de una actualización mayor.
- Selecciona el backend manualmente: Si la GPU sigue sin detectarse, ve a Configuración → GPU → selecciona Vulkan manualmente en lugar de dejar el modo automático.
- Como último recurso: Pon GPU Layers en 0 para trabajar completamente en CPU mientras esperas que el soporte mejore.
Error 3: Velocidad Muy Baja (2–5 tok/s) Teniendo GPU
Este error es especialmente desconcertante porque tienes hardware dedicado pero la IA responde a la misma velocidad que si no tuvieras GPU. La causa es casi siempre la misma.
¿Por qué ocurre?
El parámetro GPU Layers está configurado en 0, lo que significa que LM Studio está corriendo el modelo completamente en CPU aunque tenga GPU disponible. Esto puede pasar porque alguien lo configuró manualmente sin saberlo, o porque LM Studio lo reseteó tras una actualización.
Solución inmediata:
Ve al panel de configuración del modelo cargado → encuentra “GPU Layers” → cambia el valor de 0 a -1 (automático) → recarga el modelo. La velocidad debería multiplicarse entre 5x y 10x instantáneamente.
Si ya tienes GPU Layers en -1 y el rendimiento sigue siendo bajo, verifica estos puntos adicionales:
- Asignación de GPU reducida: En Configuración → Aceleración GPU, asegúrate de que el slider esté al 80-100%. Si lo tienes al 10% o 20%, la inferencia se ejecuta mayoritariamente en CPU.
- Flash Attention desactivada: Para GPUs NVIDIA RTX 30xx/40xx y AMD RX 6xxx/7xxx, activar Flash Attention en la configuración puede reducir el consumo de VRAM del contexto hasta un 40% y acelerar la inferencia notablemente en conversaciones largas.
- Otro proceso usando la GPU: Cierra navegadores con aceleración gráfica activada, juegos o aplicaciones de edición de video antes de usar LM Studio.
Error 4: Formato de Modelo No Soportado
LM Studio solo soporta el formato GGUF. Si descargaste un modelo directamente de Hugging Face en formato .safetensors, .bin o .pt, no funcionará en LM Studio y verás un error al intentar cargarlo.
Solución:
Busca la versión GGUF del modelo en Hugging Face. La forma más rápida es buscar en HuggingFace con el nombre del modelo seguido de “GGUF”. Los usuarios bartowski y TheBloke son los más reconocidos por subir versiones GGUF de calidad de los modelos más populares. Desde el buscador interno de LM Studio, todos los modelos que aparecen ya son GGUF, así que el problema generalmente ocurre cuando se descarga un modelo manualmente desde Hugging Face sin usar la interfaz de LM Studio.
Error 5: Servidor API Local No Responde (Puerto 1234)
Si estás tratando de conectar una herramienta externa como n8n, Continue.dev o un script Python a LM Studio vía http://localhost:1234/v1 y recibes “Connection refused” o “No se puede conectar”, estos son los puntos a verificar:
Causas comunes y soluciones:
- El servidor no está activo: La API local de LM Studio está desactivada por defecto y hay que activarla manualmente. Ve a la pestaña “Local Server” en la barra lateral → haz clic en “Start Server” hasta que el botón muestre “Stop Server” en verde.
- No hay modelo cargado en el servidor: El servidor activo no sirve de nada si no tiene un modelo seleccionado. En la pestaña Local Server, asegúrate de seleccionar un modelo en el dropdown antes o después de iniciar el servidor.
- Firewall de Windows bloqueando el puerto: Ve a Panel de Control → Windows Defender Firewall → Reglas de entrada → verifica que el puerto 1234 no esté bloqueado. Puedes agregar una regla de excepción para LM Studio si es necesario.
- Conflicto de puertos: Si tienes otra aplicación usando el puerto 1234, LM Studio no podrá iniciar el servidor. Cambia el puerto en Configuración → Servidor a 1235 o cualquier puerto libre.
Error 6: Respuestas Cortadas o Incompletas
El modelo comienza a responder pero la respuesta se corta abruptamente en medio de una frase, especialmente en respuestas largas o cuando pides resúmenes y listas extensas.
Causa principal: La longitud de contexto configurada es demasiado baja. Si tienes el contexto en 2.048 o 4.096 tokens y envías un prompt largo más la respuesta esperada, el modelo simplemente se queda sin “espacio” para terminar.
Solución: Aumenta la longitud de contexto a 8.192 como mínimo para uso cotidiano. Si haces tareas con documentos largos o conversaciones extendidas, sube a 16.384 o 32.768 (asegúrate de tener VRAM suficiente). La guía práctica: mantén el contexto por encima de 30.000 tokens si tienes 8 GB de VRAM y quieres un punto óptimo de equilibrio.
Error 7: Problemas de Tool Calling con Modelos de Razonamiento
Si usas modelos como DeepSeek-R1, Qwen3 o cualquier modelo con razonamiento extendido (thinking) y notas que las llamadas a herramientas fallan silenciosamente o producen salidas corruptas, es un error conocido del servidor de LM Studio.
El problema: El analizador del servidor de LM Studio tiene tres bugs documentados que interactúan entre sí y corrompen silenciosamente la salida de razonamiento de estos modelos, haciendo que parezcan peores de lo que realmente son. Uno de estos bugs estuvo reportado en el tracker oficial durante más de un año sin resolución completa.
Soluciones temporales:
- Usa el modo de chat regular en lugar del modo servidor para modelos de razonamiento
- Cambia temporalmente a Ollama para integraciones que requieran tool calling confiable con estos modelos
- Desactiva el modo “thinking” del modelo si la herramienta lo permite
Error 8: LM Studio Muy Lento al Cargar por Primera Vez
Si el modelo tarda entre 60 y 90 segundos en cargar la primera vez y piensas que algo está fallando, no hay ningún error real. Este comportamiento es completamente normal.
Explicación: En la primera carga, LM Studio mapea el archivo GGUF completo en memoria (un proceso llamado memory mapping). Un modelo de 5 GB puede tardar entre 30 y 90 segundos dependiendo de la velocidad del almacenamiento. En disco HDD puede llegar a 2-3 minutos. En SSD NVMe el proceso es mucho más rápido.
Cómo mejorar los tiempos de carga:
- SSD NVMe es la mejora más impactante para tiempos de carga: reduce la espera hasta 5-10x frente a un HDD
- Las cargas siguientes del mismo modelo son mucho más rápidas porque el sistema operativo cachea el archivo
- No cierres LM Studio entre sesiones si vas a usar el mismo modelo durante el día; mantenerlo cargado elimina el tiempo de espera
Tabla de Referencia Rápida
| Error | Causa más común | Solución rápida |
|---|
| Error | Causa más común | Solución rápida |
|---|---|---|
| Out of Memory | Contexto o modelo demasiado grande para la VRAM | Reduce Context Length o activa CPU Fallback |
| GPU no detectada | Drivers desactualizados o runtime incorrecto | Actualiza drivers + runtime desde Configuración → Runtime |
| Velocidad 2-5 tok/s | GPU Layers en 0 (corriendo en CPU) | Cambia GPU Layers a -1 y recarga el modelo |
| Formato no soportado | Modelo en .safetensors o .bin | Busca versión GGUF del mismo modelo en HuggingFace |
| API no responde | Servidor no activo o sin modelo seleccionado | Activa el servidor y selecciona modelo en Local Server |
| Respuestas cortadas | Context Length muy bajo | Sube Context Length a 8.192 o más |
| Tool Calling fallido | Bug del parser del servidor con modelos de razonamiento | Usa Ollama como backend alternativo para estas integraciones |
| Carga muy lenta | Primera carga (memory mapping) o disco HDD | Normal; considera migrar a SSD NVMe |
Consejo Final: Mantén LM Studio Actualizado
La mayoría de los errores documentados en esta guía tienen correcciones en versiones más nuevas de LM Studio. La comunidad reporta activamente bugs en el repositorio oficial lmstudio-ai/lmstudio-bug-tracker en GitHub, y el equipo suele lanzar parches rápidos. Antes de pasar horas depurando un error, verifica si hay una nueva versión disponible: en muchos casos, actualizar la aplicación es el único paso necesario.
