Un único punto de descompostura provocó la interrupción de Amazon que afectó a millones

Un catedrático desconocido cita un referencia de Ars Technica: La interrupción que afectó a Amazon Web Services y dejó fuera de servicio servicios vitales en todo el mundo fue la resultado de un solo resolución que pasó de un sistema a otro en el interior de la extensa red de Amazon, según una necropsia realizada por ingenieros de la empresa. (…) Amazon dijo que la causa principal de la interrupción fue un error de software en el software que ejecuta el sistema de administración DNS DynamoDB. El sistema monitorea la estabilidad de los balanceadores de carga, entre otras cosas, creando periódicamente nuevas configuraciones de DNS para los puntos finales en el interior de la red de AWS. Una condición de carrera es un error que hace que un proceso dependa del tiempo o de la secuencia de eventos que son variables y están fuera del control de los desarrolladores. El resultado puede ser un comportamiento inesperado y fallos potencialmente dañinos.

En este caso, la condición de carrera residía en DNS Enactor, un componente de DynamoDB que actualiza constantemente las tablas de búsqueda de dominios en puntos finales individuales de AWS para optimizar el compensación de carga a medida que cambian las condiciones. Mientras operaba el enactor, “experimentó retrasos inusualmente altos al carecer retornar a intentar su modernización en varios de los puntos finales DNS”. Mientras el actor se ponía al día, un segundo componente de DynamoDB, el Planificador de DNS, continuó generando nuevos planes. Luego, un DNS Enactor independiente comenzó a implementarlos. El momento de estos dos actores desencadenó la condición de carrera, que terminó eliminando todo DynamoDB. (…) La descompostura provocó que los sistemas que dependían de DynamoDB en el punto final regional US-East-1 de Amazon experimentaran errores que les impedían conectarse. Tanto el tráfico de clientes como los servicios internos de AWS se vieron afectados.

Los daños resultantes del resolución de DynamoDB ejercieron presión sobre los servicios EC2 de Amazon ubicados en la región US-East-1. La tensión persistió incluso posteriormente de que se restableciera DynamoDB, ya que EC2 en esta región trabajó a través de una “importante acumulación de propagaciones del estado de la red que debían procesarse”. Los ingenieros continuaron diciendo: “Si adecuadamente las nuevas instancias EC2 podrían lanzarse con éxito, no tendrían la conectividad de red necesaria adecuado a los retrasos en la propagación del estado de la red”. A su vez, el retraso en las propagaciones del estado de la red se extendió a un equilibrador de carga de red del que dependen los servicios de AWS para su estabilidad. Como resultado, los clientes de AWS experimentaron errores de conexión en la región US-East-1. Las funciones de red de AWS afectadas incluyeron la creación y modificación de clústeres de Redshift, invocaciones de Lambda y lanzamientos de tareas de Fargate, como flujos de trabajo administrados para Apache Airflow, operaciones del ciclo de vida de Outposts y el Centro de soporte de AWS. Amazon ha deshabilitado temporalmente su automatización DynamoDB DNS Planner y DNS Enactor a nivel mundial mientras corrige la condición de carrera y agrega protecciones contra planes DNS incorrectos. Los ingenieros incluso están actualizando EC2 y su equilibrador de carga de red.

Ojeada adicional: AWS de Amazon muestra signos de pasión a medida que sus competidores avanzan