Reemplacé mi suscripción ChatGPT con una GPU de 12 GB y nunca miré a espaldas

En 2026, ChatGPT+ e incluso sus rivales como Claude Pro o Google Gemini pueden costar aproximadamente entre 240 y 300 dólares al año. Si aceptablemente existen versiones gratuitas de este software, si desea las funciones profesionales, la tarifa de suscripción de $ 20 al mes puede parecer la realización de cable de la división de 2020: costosa, restrictiva y carente de privacidad.

Por el precio de dos abriles de arrendar un chatbot, podrías comprarte un RTX 4070 o incluso un RTX 3060 de 12 GB y ser dueño del hardware para siempre, y si aceptablemente esto puede parecer una gran inversión original, vale mucho más la pena a amplio plazo. Ocurrir a la IA específico no es sólo una cuestión de privacidad; asimismo puede brindarle una experiencia de legatario superior. No obtienes límites de tarifas y 100% de tiempo de actividad incluso si tu Internet se corta.

Una MacBook air conectada a un monitor que ejecuta DeepSeek-R1 localmente

7 cosas que desearía asimilar cuando comencé a organizar mis LLM por mi cuenta

He organizado LLM por mi cuenta durante suficiente tiempo y estas son todas las cosas que aprendí con el tiempo y que desearía asimilar desde el principio.

¿Por qué 12 GB de VRAM?

Si aceptablemente no es esencial, sin duda es el punto ideal.

Si escudriñamiento trastornar en una GPU principalmente para IA, la VRAM es una observación esencia a considerar. Si aceptablemente los núcleos CUDA son fundamentales para la velocidad de inferencia, al igual que el encantado de lado de la memoria, la VRAM garantizará que los modelos tengan espacio para funcionar y respirar. Nominar una GPU que tenga 12 GB de VRAM significa que puedes autohospedar herramientas de IA con facilidad. Ya no tendrás que preocuparte por la nubarrón ni por una conexión a Internet constante.

12 GB es la cojín contemporáneo para los entusiastas. Significa que puedes ejecutar modelos 8B como Pasión xLAM-2 o Mistral con inscripción cuantización con ventanas de contexto de hasta 16k-32k. Si utiliza la cuantificación de 4 bits, el maniquí sólo utiliza unos 5 GB, dejando 7 GB de RAM estrictamente para la elegancia KV (asimismo conocida como memoria de trabajo de la IA). Esto le permitirá proveer a la IA con libros completos o bases de código con hasta 32 000 tokens mientras mantiene toda la sesión en la GPU para obtener respuestas instantáneas. Solo asegúrate el maniquí soporta una ventana de contexto de ese tamaño, ya que la ventana de contexto oficial de Pasión 2 7B solo llega a 4096 tokens.

Si desea ejecutar modelos de 14B a 20B, entonces 12 GB de RAM asimismo funcionan igual de aceptablemente, pero probablemente estará constreñido a indicaciones de una sola vez. Modelos como Mistral Nemo (12B), Qwen 3 (14B) y Phi 4 (14B) están diseñados para usuarios que necesitan razonamiento para la codificación y la dialéctica, pero que no tienen un centro de datos en su armario. Un maniquí de 14B con cuantificación de 4 bits ocupa aproximadamente entre 9 y 10 GB en una plástico de 12 GB. Estos modelos encajan completamente en VRAM sin tener que preocuparse por el espacio para una ventana de contexto de hasta 4K.

Oportuno a que estos modelos no tienen que dilatarse a la RAM de su sistema mucho más calmoso, obtendrá velocidades de 30 a 50 tokens por segundo en un RTX 4070. Si los ejecuta en una plástico de 8 GB, estos mismos modelos tendrán que dividirse entre su VRAM y la RAM de su sistema, lo que provocará que las velocidades caigan en picado a unos dolorosos 3 a 5 tokens por segundo.

No es el fin del mundo, y aún puedes penetrar una utensilio de IA y asegurarte de obtener todos los beneficios de no servir de suscripciones o de la nubarrón, pero si quieres un rendimiento optimizado, entonces una GPU de 12 GB es el camino a seguir.

El software ha llegado tan allá como el hardware

Ya no necesitas habilidades de codificación para servirse estas herramientas

Configuración de agentes de conversación de Ollama

Así como el hardware ha progresista mucho, el software asimismo ha progresista mucho, con tantas opciones de código rajado. Obtienes una experiencia de un solo clic con tantas herramientas de IA autohospedadas que ni siquiera necesitas una terminal. LM Studio y Ollama le brindan esa experiencia de “descargar una aplicación”. Buscas un maniquí, presionas descargar y estás charlando. La experiencia no es diferente de instalar y ejecutar un navegador web para aquellos que no son tan expertos en tecnología o simplemente no quieren sufrir dolores de individuo.

Si es algún que no quiere educarse una interfaz de legatario completamente nueva, entonces productos como OpenWebUI significan que puede ejecutar una interfaz específico que se ve y se siente exactamente como ChatGPT, completa con carga de documentos y procreación de imágenes.

Asimismo obtienes el beneficio de la soberanía de los datos. La IA específico significa que puede proveer sus declaraciones de impuestos, datos médicos privados o código fuente no erudito sin preguntarse si se está utilizando para entrenar la próxima lectura del maniquí de un competidor. Siquiera tiene que preocuparse de que sus datos estén en manos de grandes marcas en las que no necesariamente confíe. Todo está alojado en tu propio dispositivo a menos que lo configures de otra forma.

Cuando utilicé estas herramientas autohospedadas en un RTX 4070, descubrí que un maniquí 8B específico podía crear texto más rápido de lo que yo podía adivinar, con una tasa de procreación de 80 o más tokens por segundo de forma constante. Esto fue usando AWQ en 4 bits cuantificados en un backend vLLM, pero es posible que pueda obtener números levemente más altos si usa un backend TensorRT-LLM, gracias a su compilador específico de hardware. Tenga en cuenta que si utilizara un RTX 3060, probablemente vería velocidades de procreación más lentas como consecuencia de su encantado de lado de memoria significativamente último.

Quienes usan ChatGPT+ con frecuencia encontrarán que el maniquí puede retrasarse durante las horas pico. De repente, ya no tengo que preocuparme por esto.

Asimismo me beneficié de RAG (Vivientes Aumentada de Recuperación). Mi maniquí específico podía permanecer despierto y escanear 50 archivos PDF locales en segundos sin alcanzar un frontera de tamaño de archivo, a diferencia de cuando subo mis documentos a la web. Por supuesto, puede servirse RAG utilizando herramientas de inteligencia sintético en linde gracias a los modelos de integración más nuevos, pero a su vez, tiene una gran desventaja en materia de privacidad, ya que brindará llegada sin restricciones a sus archivos.

El autohospedaje es una opción para todos

12 GB de VRAM o no, puedes autohospedarte

Incluso si no tienes una GPU de 12 GB, puedes servirse el autohospedaje. A pesar de que estas herramientas de inteligencia sintético funcionan más lentamente si funcionan con la RAM de su sistema, aún obtendrá todos los beneficios del autohospedaje, pero habrá una compensación de latencia. Sus búsquedas locales tardarán un poco más en comparación con los proveedores de la nubarrón, pero es posible que descubra que la privacidad vale la pena el tiempo de demora adicional.

Tener 12 GB de VRAM en tu GPU es el nuevo punto ideal. Es el hardware lo que positivamente lo conecta con la próxima era de la informática. Mi PC ya no es sólo una máquina de juegos o una etapa de trabajo; es un socio intelectual silencioso, privado y permanente, y los 20 dólares que capital cada mes son un bono muy bienvenido.

Related Posts

La nave espacial DART de la NASA cambió la campo de un asteroide binario rodeando del sol, por primera vez en un objeto creado por humanos.

Cuando la NASA estrelló una nave espacial contra la pequeña espejo asteroide Dimorphos en 2022, alteró tanto la campo de Dimorphos rodeando de su asteroide padre, Didymos, como la campo…

Google acaba de darle a Sundar Pichai un paquete de cuota de 692 millones de dólares

El nuevo paquete salarial de Sundar Pichai podría suponer 692 millones de dólares. por un presentación primero espiado por el Financial TimesAlphabet ha estructurado un acuerdo de tres primaveras para…

You Missed

La inteligencia fabricado supone un aventura para el mundo si no se regula

La inteligencia fabricado supone un aventura para el mundo si no se regula

Junior Caminero con confusión de emociones

Junior Caminero con confusión de emociones

Ejemplos de cooperativismo cumplen 35 y 37 abriles

Ejemplos de cooperativismo cumplen 35 y 37 abriles

La nave espacial DART de la NASA cambió la campo de un asteroide binario rodeando del sol, por primera vez en un objeto creado por humanos.

La nave espacial DART de la NASA cambió la campo de un asteroide binario rodeando del sol, por primera vez en un objeto creado por humanos.

El marcapasos más pequeño del mundo si existe y se activa con luz

El marcapasos más pequeño del mundo si existe y se activa con luz

Google acaba de darle a Sundar Pichai un paquete de cuota de 692 millones de dólares

Google acaba de darle a Sundar Pichai un paquete de cuota de 692 millones de dólares