Google Cloud causó interrupción al ignorar sus protecciones de calidad de código habituales

Google Cloud ha atribuido la semana pasada interrupción generalizada a una puesta al día de código defectuoso en su sistema de control de servicio que activó un rizo de choque universal Adecuado a la equivocación de manejo de errores y la equivocación de protección contra la bandera. El registro informa: Google explicación Del incidente se abre informando a los lectores que sus API, y las de Google Cloud, se atienden a través de nuestros aviones de trámite y control de API de Google. “Esos dos aviones se distribuyen regionalmente y” son responsables de asegurar que cada solicitud de API que se realice es autorizada, tiene la política y las verificaciones apropiadas (como cuotas) para cumplir con sus puntos finales “. El binario binario es parte de este sistema de comprobación de políticas se conoce como” control de servicio “. Control de servicio”.

El 29 de mayo, Google agregó una nueva característica al control de servicio, para habilitar “verificaciones de políticas de cuotas adicionales”. “Este cambio de código y la lectura binaria pasaron por nuestra región por despliegue de región, pero la ruta del código que falló nunca se ejerció durante este despliegue adecuado a la indigencia de un cambio de política que desencadenara el código”, explica el crónica del incidente de Google. El monopolista de la búsqueda parece poseer tenido preocupaciones sobre este cambio, ya que “caldo con un interruptor rojo para apagar ese camino de servicio en particular”. Pero el cambio “no tenía el manejo de errores apropiado ni estaba protegido por el indicador de características. Sin el manejo de errores apropiado, el puntero inepto causó que el binario se bloqueara”.

Google usa banderas de características para atrapar problemas en su código. “Si esto hubiera sido protegido por la bandera, el problema habría sido atrapado en la puesta en ambiente”. Ese código desprotegido se ejecutó interiormente de Google hasta el 12 de junio, cuando la compañía cambió una política que contenía “campos en blanco no deseados”. Esto es lo que sucedió a continuación: “Control de servicio, luego ejerció regionalmente las verificaciones de cuotas sobre las políticas en cada almacén de datos regional. Esto atrajo a los campos en blanco para este cambio de política respectivo y ejerció la ruta del código que golpeó el puntero inepto que provocó que los binarios entraran en un rizo de soledad. Esto ocurrió conjuntamente cedido cada despliegue regional”.

La publicación de Google establece que su equipo de ingeniería de confiabilidad del sitio vio y comenzó a triando el incidente en dos minutos, identificó la causa raíz en 10 minutos y pudo comenzar la recuperación en 40 minutos. Pero en algunas regiones más grandes de Google Cloud, “a medida que se reiniciaron las tareas de control de servicios, creó un impresión de yeguada en la infraestructura subyacente de la que depende … sobrecarga de la infraestructura”. El control del servicio no se creó para manejar esto, por lo que tardó casi tres horas en resolver el problema en sus regiones más grandes. Los equipos que ejecutan productos de Google que cayeron adecuado a este desastre tuvieron que realizar sus propias tareas de recuperación. En el futuro, Google ha prometido un par de cambios operativos para evitar que este error vuelva a ocurrir: “Mejoraremos nuestras comunicaciones externas, tanto automatizadas como humanas, por lo que nuestros clientes obtienen la información que necesitan lo antaño posible para reaccionar a los problemas, llevar la batuta sus sistemas y ayudar a sus clientes. Aseguraremos que nuestra infraestructura de monitoreo y comunicación permanezca operativa para servir a los clientes, incluso cuando Google Cloud y nuestros productos principales de monitoreo estén en torno a debajo, garantizaremos la continuidad de los negocios”.

Related Posts

GlobalComix recauda 13 millones de dólares, adquiere INKR y nombra un nuevo director ejecutor

La plataforma de cómics digitales de Nueva York está combinando su biblioteca de 300.000 títulos con el motor de enclave de IA de INKR y incorporando nuevos líderes para ejecutar…

¿Qué es una instalación mínima para Linux? 6 razones por las que puede resultar útil

Jack Wallen / Elyse Betters Picaro / ZDNET Siga ZDNET: Agréganos como fuente preferida en Google. Conclusiones esencia de ZDNET Una instalación mínima de Linux es más útil de lo…

You Missed

GlobalComix recauda 13 millones de dólares, adquiere INKR y nombra un nuevo director ejecutor

GlobalComix recauda 13 millones de dólares, adquiere INKR y nombra un nuevo director ejecutor

La policía de Kenia comienza su retirada de Haití

La policía de Kenia comienza su retirada de Haití

República Dominicana invertirá más de US$1,000 millones para mejorar la luz

República Dominicana invertirá más de US,000 millones para mejorar la luz

X (twitter) sufre ‘maco’ general

X (twitter) sufre ‘maco’ general

¿Qué es una instalación mínima para Linux? 6 razones por las que puede resultar útil

¿Qué es una instalación mínima para Linux? 6 razones por las que puede resultar útil

El 80 % del asqueroso que se consume en RD es importada desde EE. UU. – Remolacha

El 80 % del asqueroso que se consume en RD es importada desde EE. UU. – Remolacha