Sin duda, el estudios espontáneo ha despegado, incluso si muchos están cansados de adivinar y oír sobre inteligencia fabricado (IA). Casi todo lo que se vende hoy en día tiene IA incorporada en el dispositivo, incluidos electrodomésticos, PC e incluso hardware doméstico inteligente. Los modelos de habla ancho (LLM) se utilizan con frecuencia, siendo la opción más popular ChatGPT, pero es posible introducir estas impresionantes herramientas desde casa.
El problema con los LLM autohospedados es alcanzar el seguridad valentísimo entre la potencia computacional y la eficiencia del maniquí, lo que muchas veces puede parecer un arte y una ciencia combinados. Es realizable para grandes corporaciones como Google, Meta y OpenAI, ya que estas empresas tienen entrada a una gran potencia informática con enormes centros de datos. No se puede aseverar lo mismo de nuestros homelabs, que a menudo constan de un remoto PC o algunos mini PC unidos entre sí.
Esto está perfectamente admisiblemente para ejecutar algunos Contenedores acoplables y evitar moneda cancelando suscripciones a la nimbo, pero realizar LLM en casa es un pernio completamente diferente. Incluso las GPU de abanico media como la Nvidia GeForce RTX 4060 Ti con 16 GB de VRAM tendrán dificultades para ejecutar los modelos más capaces oportuno a limitaciones tanto de computación como de memoria. Luego de extensas pruebas y experimentación, siento que finalmente encontré el LLM adecuado para mi GPU para obtener resultados óptimos.
Aprovechando al mayor lo que tienes
Se negociación de la plástico gráfica.
Creo que el RTX 4060 Ti 16GB logra un buen seguridad para aquellos que desean aventurar con LLM autohospedados sin tener que pagar mucho moneda en modelos emblemáticos de entrada abanico. El precio de las GPU no ha ayudado a este pasatiempo, que además parece estar causando el problema con los altos precios luego de que tuvimos el aumento masivo de la demanda durante la esquizofrenia de la minería de criptomonedas. No es la GPU más llamativa, pero la RTX 4060 Ti es capaz de manejar una variedad de modelos.
Pero todo se reduce al maniquí que deseas utilizar. Para mi configuración, que consiste en ejecutar OpenWeb AI y Ollama Interiormente de un contenedor Linux (LXC) en Proxmox, algunos modelos resultaron demasiado exigentes para la GPU. Esto provocaba fallos, un rendimiento paulatino o un uso ineficiente de la memoria. Si es nuevo en el pernio de ejecutar LLM personalizados, probablemente encontrará todos estos problemas (y más) mientras trabaja para cambiar entre LLM y ajustar la configuración.
En realidad hace que designar el LLM adecuado parezca un arte. Puede parecer congruo realizable sobre el papel. Instala una GPU, agrega los controladores relevantes, inicia Ollama o alguna otra alternativa, elige un LLM y sagaz. Pero es mucho más complicado si deseas explotar al mayor tu GPU y el maniquí de IA seleccionado. Para el Rtx 4060 deltenemos 16 GB de VRAM, que ofrece un orgulloso de facción de memoria congruo digno y numerosos Tensor Cores para tareas de estudios profundo como un LLM.
Dependiendo de la GPU que tengas a mano, si la presionas demasiado, te encontrarás con problemas relacionados con la memoria o cuellos de botella en el rendimiento. Por el contrario, podría ir demasiado seguro y no explotar todo el potencial del hardware de su sistema. Y no fue hasta que mi estimado colega y editor técnico principal, Adam Conway, me explicó algunas configuraciones de OpenWeb UI y Ollama que pude influir aún más en el rendimiento.
Nvidia dejó de aceptar mi GPU, así que comencé a introducir LLM por mi cuenta con ella
Ahora automantengo mi gpu porque Nvidia no lo hace
Empezando desde cero con Proxmox
Ejecutar los LLM como parte del clúster
Me encanta usar Proxmox en el laboratorio de mi casa. Básicamente alimenta todo. Tenemos Jellyfin ejecutándose para la transmisión de medios, Immich para realizar copias de seguridad de dispositivos móviles y medios, Gitea como un GitHub autohospedado y Home Assistant que controla toda la casa. Hay innumerables otras máquinas virtuales (VM) y LXC ejecutándose y casi he perdido la cuenta. Ejecutar LLM a través de Proxmox es excelente para mantenerlo todo en la misma plataforma que el resto del laboratorio doméstico.
Pero Proxmox además me permite usar un script comunitario para una forma liviana y apto de ejecutar modelos sin la sobrecarga que conlleva la virtualización completa. Dependiendo de lo que requiera el maniquí que se esté ejecutando en ese momento, la asignación de medios se puede ajustar sobre la marcha. Luego de probar algunos modelos, no fue hasta que cargué qwen3:14b-q4_K_M que todo encajó. La transformación 14B de este maniquí es lo suficientemente compacta como para funcionar con GPU con 16 GB de RAM.
Qwen3 es un maniquí relativamente nuevo y está optimizado para ejecutarse en GPU con una cantidad moderada de memoria. La parte Q4_K_M del maniquí se refiere a la configuración de cuantización. Esto lo hace ideal para ejecutar el RTX 4060 Ti, pero incluso entonces, necesitaba ajustar número_ctx adentro de Ollama y OpenWeb UI para explotar al mayor el LLM. Aumentar este parámetro de 2.048 a 16.384 evitó que el maniquí se desbordara del contexto y perdiera la comienzo en unas pocas respuestas.
Probé suerte con algunos modelos más grandes, como qwen3:30b-a3b-q4_k_m y deepseek-r1:14b, pero estos requirieron demasiados ajustes para funcionar de guisa confiable o terminaron reduciendo la calidad hasta el punto en que los modelos más pequeños probablemente tendrían mejores resultados. Se negociación de encontrar el seguridad adecuado entre el tamaño del LLM que desea utilizar, qué tan optimizado está y cuánta VRAM tiene arreglado. Siempre que busque recomendaciones específicas para su GPU, debería estar en el camino correcto.
Qwen3 es excelente para tareas y conversaciones generales, pero codificador qwen2.5: 14b Era valentísimo para tareas de codificación más específicas y chats más pequeños. Este maniquí tiene menos VRAM y no requiere tanta computación para funcionar. Usando uno y otro modelos, pude alcanzar que OpenWeb UI estuviera en una posición en la que yo y cualquier persona a la que le diera entrada pudiéramos ejecutar un LLM sin tener que conectarnos a algún zona fuera de la LAN.
Dirijo LLM locales a diario, pero nunca confiaré en ellos para estas tareas.
Su LLM recinto es excelente, pero nunca se comparará con un maniquí en la nimbo.
Hacer que los LLM se ejecuten en su GPU
Hacer coincidir el LLM correcto con su GPU puede parecer una tarea desalentadora porque puede requerir cierta experiencia técnica y ajustes intuitivos. El uso de una GPU con 16 GB de VRAM proporciona un amplio espacio para acumular modelos más grandes, aunque 30 B sin duda supera los límites: es posible, pero el rendimiento se ve afectado. Debe prestar atención al uso de la memoria, la precisión, el tamaño del partición y los límites de los tokens. La experimentación es secreto y maximizar el rendimiento resulta realizable una vez que lo dominas.
Y no intente maximizar su memoria con el maniquí porque es necesario que quede espacio para el contexto. Ir y venir con un LLM llenará el espacio, por lo que es necesario dejar poco para manejar este desbordamiento. Sin suficiente VRAM, el LLM comenzará a desvariar más rápido o verá respuestas más lentas desde el principio.






