Cómo OpenAI está ampliando la cojín de datos PostgreSQL a 800 millones de usuarios

Cómo OpenAI está ampliando la cojín de datos PostgreSQL a 800 millones de usuarios

Si admisiblemente las bases de datos vectoriales todavía tienen muchos casos de uso válidos, las organizaciones, incluida OpenAI, se apoyan en PostgreSQL para hacer las cosas.

en un publicación de blog el juevesOpenAI reveló cómo utiliza la cojín de datos PostgreSQL de código despejado.

OpenAI ejecuta ChatGPT y su plataforma API para 800 millones de usuarios en una única instancia primaria de PostgreSQL, no en una cojín de datos distribuida ni en un clúster fragmentado. Un servidor flexible de Azure PostgreSQL controla todas las escrituras. Casi 50 réplicas de ojeada repartidas en varias regiones manejan lecturas. El sistema procesa millones de consultas por segundo mientras mantiene una latencia p99 depreciación de milisegundos de dos dígitos y una disponibilidad de cinco nueves.

La configuración desafía la prudencia convencional sobre escalamiento y ofrece a los arquitectos empresariales una idea de lo que positivamente funciona a escalera masiva.

tLa disertación aquí no es copiar la pila de OpenAI. Es que las decisiones arquitectónicas deben estar impulsadas por patrones de carga de trabajo y limitaciones operativas, no por pánico a la escalera o elecciones de infraestructura de moda. La configuración PostgreSQL de OpenAI muestra hasta dónde pueden aparecer los sistemas probados cuando los equipos optimizan deliberadamente en zona de rediseñar prematuramente.

"Durante abriles, PostgreSQL ha sido uno de los sistemas de datos ocultos más críticos que impulsan productos centrales como ChatGPT y la API de OpenAI." El ingeniero de OpenAI, Bohan Zhang, escribió en una divulgación técnica. "Durante el año pasado, nuestra carga de PostgreSQL se multiplicó por más de 10 y continúa aumentando rápidamente."

La compañía logró esta escalera a través de optimizaciones específicas, incluida la agrupación de conexiones que redujo el tiempo de conexión de 50 milisegundos a 5 milisegundos y el sitio de personalidad para evitar problemas de “piara atronador” donde los errores de personalidad desencadenan una sobrecarga de la cojín de datos.

Por qué PostgreSQL es importante para las empresas

PostgreSQL maneja datos operativos para ChatGPT y la plataforma API de OpenAI. La carga de trabajo está fuertemente orientada a la ojeada, lo que hace que PostgreSQL sea una buena opción. Sin requisa, el control de concurrencia multiversión (MVCC) de PostgreSQL crea desafíos bajo cargas de escritura pesadas.

Al renovar datos, PostgreSQL copia filas enteras para crear nuevas versiones, lo que provoca una amplificación de la escritura y obliga a las consultas a escanear varias versiones para encontrar los datos actuales.

En zona de batallar contra esta barrera, OpenAI construyó su logística en torno a ella. A la escalera de OpenAI, estas compensaciones no son teóricas: determinan qué cargas de trabajo permanecen en PostgreSQL y cuáles deben trasladarse a otra parte.

Cómo OpenAI está optimizando PostgreSQL

A gran escalera, la prudencia convencional sobre bases de datos apunta a uno de dos caminos: dividir PostgreSQL en múltiples instancias primarias para que las escrituras puedan distribuirse, o portar a una cojín de datos SQL distribuida como CockroachDB o YugabyteDB diseñada para manejar una escalera masiva desde el principio. La mayoría de las organizaciones habrían tomado uno de estos caminos hace abriles, mucho antiguamente de aparecer a los 800 millones de usuarios.

Fragmentar o tener lugar a una cojín de datos SQL distribuida elimina el cuello de botella del escritor único. Una cojín de datos SQL distribuida maneja esta coordinación automáticamente, pero uno y otro enfoques introducen una complejidad significativa: el código de la aplicación debe enrutar las consultas al fragmento correcto, las transacciones distribuidas se vuelven más difíciles de cuidar y la sobrecarga operativa aumenta sustancialmente.

En zona de fragmentar PostgreSQL, OpenAI estableció una logística híbrida: no hay tablas nuevas en PostgreSQL. Las nuevas cargas de trabajo utilizan de forma predeterminada sistemas fragmentados como Azure Cosmos DB. Las cargas de trabajo existentes con mucha escritura que se pueden dividir horizontalmente se migran. Todo lo demás permanece en PostgreSQL con una optimización agresiva.

Este enfoque ofrece a las empresas una alternativa maña a la reestructuración generalizada. En zona de tener lugar abriles reescribiendo cientos de puntos finales, los equipos pueden identificar cuellos de botella específicos y trasladar solo esas cargas de trabajo a sistemas diseñados específicamente.

Por qué esto importa

La experiencia de OpenAI escalando PostgreSQL revela varias prácticas que las empresas pueden adoptar independientemente de su escalera.

Construya defensas operativas en múltiples capas. El enfoque de OpenAI combina el sitio de personalidad para evitar "piara atronador" problemas, agrupación de conexiones (que redujo el tiempo de conexión de 50 ms a 5 ms) y barrera de velocidad en los niveles de aplicación, proxy y consulta. El aislamiento de la carga de trabajo enruta el tráfico de depreciación y reincorporación prioridad a instancias separadas, lo que garantiza que una nueva característica mal optimizada no pueda degradar los servicios principales.

Revisar y monitorear SQL generado por ORM en producción. Los marcos de mapeo relacional de objetos (ORM) como Django, SQLAlchemy e Hibernate generan automáticamente consultas de bases de datos a partir del código de la aplicación, lo cual es conveniente para los desarrolladores. Sin requisa, OpenAI encontró una consulta generada por ORM que unía 12 tablas y que provocó múltiples incidentes de reincorporación dificultad cuando el tráfico aumentó. La conveniencia de permitir que los marcos generen SQL crea riesgos de escalamiento ocultos que solo emergen bajo carga de producción. Haga que la revisión de estas consultas sea una maña unificado.

Aplicar una estricta disciplina operativa. OpenAI solo permite cambios ligeros de esquema: está prohibido cualquier cosa que provoque una reescritura completa de la tabla. Los cambios de esquema tienen un tiempo de retraso de 5 segundos. Las consultas de larga duración se finalizan automáticamente para evitar el sitio de las operaciones de mantenimiento de la cojín de datos. Al reponer datos, imponen límites de tarifas tan agresivos que las operaciones pueden tardar más de una semana.

Las cargas de trabajo de ojeada intensa con escrituras en ráfaga pueden ejecutarse en PostgreSQL primario único durante más tiempo de lo que comúnmente se supone. La atrevimiento de fragmentar debería obedecer de los patrones de carga de trabajo más que del número de usuarios.

Este enfoque es particularmente relevante para las aplicaciones de IA, que a menudo tienen cargas de trabajo muy orientadas a la ojeada con picos de tráfico impredecibles. Estas características se alinean con el patrón en el que PostgreSQL primario único escalera de guisa efectiva.

La disertación es sencilla: identificar cuellos de botella reales, optimizar la infraestructura probada cuando sea posible y portar selectivamente cuando sea necesario. La re-arquitectura al por anciano no siempre es la respuesta a los desafíos de escalera.

Related Posts

Por ayuda, limpie periódicamente su teclado mecánico.

La mayoría de las piezas de tecnología requieren mantenimiento y un poco de cariño de vez en cuando. Los teclados mecánicos no son diferentes. Sin incautación, a diferencia de, digamos,…

El presidente de la FCC critica a Amazon a posteriori de pelar la megaconstelación SpaceX

Por otra parte de detener con SpaceX su propuesta de constelación de centros de datos orbitales mucho más grandes, Amazon está buscando algún alivio regulatorio propio. Lo más urgente para…

You Missed

Xiomara Fortuna redefine el sonido del Caribe con nuevo cuaderno

Xiomara Fortuna redefine el sonido del Caribe con nuevo cuaderno

Todavía no presentan informen final sobre las fallas del corte genérico

Todavía no presentan informen final sobre las fallas del corte genérico

Por ayuda, limpie periódicamente su teclado mecánico.

Por ayuda, limpie periódicamente su teclado mecánico.

Celebrarán un evento masivo gastronómico en Samaná | AlMomento.net

Celebrarán un evento masivo gastronómico en Samaná | AlMomento.net

APROLECHE anuncia la Feria Agropecuaria Doméstico 2026 | AlMomento.net

APROLECHE anuncia la Feria Agropecuaria Doméstico 2026 | AlMomento.net

El presidente de la FCC critica a Amazon a posteriori de pelar la megaconstelación SpaceX

El presidente de la FCC critica a Amazon a posteriori de pelar la megaconstelación SpaceX