Microsoft ha revelado que la interrupción mundial del jueves fue causada por un defecto de código que permitió que el servicio DNS de Azure se sobrecargara y no respondiera a las consultas de DNS.

Aproximadamente a las 5:21 p.m. EST del jueves, Microsoft experimentó una interrupción global que impidió a los usuarios acceder o iniciar sesión en numerosos servicios, incluidos Xbox Live, Microsoft Office, SharePoint Online, Microsoft Intune, Dynamics 365, Microsoft Teams, Skype, Exchange Online, OneDrive, Yammer, Power BI, Power Apps, OneNote, Microsoft Managed Desktop y Microsoft Streams.

El servicio estaba tan extendido dentro de la infraestructura de Microsoft que incluso su página de estado de Azure, que se utiliza para proporcionar información de interrupciones, era inaccesible.

Microsoft finalmente resolvió la interrupción aproximadamente a las 6:30 p.m. EST, y algunos servicios tardaron un poco más en volver a funcionar correctamente.

En ese momento, Microsoft declaró que la interrupción fue causada por un problema de DNS, pero no proporcionó más información.

El servicio DNS de Azure se sobrecargó

Microsoft publicó un análisis de la causa raíz (RCA)de la interrupción de esta semana y explicó que se debió a que su servicio Azure DNS se había sobrecargado.

Azure DNS de Microsoft es una red global de servidores de nombres redundantes que proporciona alta disponibilidad y servicios DNS rápidos.

Según Microsoft, el servicio DNS de Azure comenzó a recibir una "oleada anómala" de consultas de DNS de todo el mundo que tenían como objetivo ciertos dominios alojados en Azure. Si bien Microsoft no explica qué fue este aumento anómalo, puede haber sido un ataque DDoS dirigido a ciertos dominios.

Microsoft afirma que su servicio de DNS normalmente podría manejar una gran cantidad de solicitudes a través de cachés de DNS y modelado de tráfico. Sin embargo, un defecto de código impidió que sus cachés de DNS Edge funcionaran correctamente.

"Los servidores DNS de Azure experimentaron un aumento anómalo en las consultas de DNS de todo el mundo dirigidas a un conjunto de dominios alojados en Azure. Normalmente, las capas de cachés y la configuración del tráfico de Azure mitigarían este aumento. En este incidente, una secuencia específica de eventos expuso un código defectuoso en nuestro servicio DNS que redujo la eficiencia de nuestras cachés DNS Edge".

"A medida que nuestro servicio de DNS se sobrecargó, los clientes de DNS comenzaron a reintentar con frecuencia sus solicitudes, lo que agregó carga de trabajo al servicio de DNS. Dado que los reintentos de los clientes se consideran tráfico de DNS legítimo, nuestros sistemas de mitigación de picos volumétricos no disminuyeron este tráfico. Este aumento en el tráfico generó a la disminución de la disponibilidad de nuestro servicio DNS ", explicó Microsoft en el RCA sobre la interrupción de esta semana.

Dado que xboxlive.com está alojado en Azure DNS y ese servicio dejó de estar disponible, los usuarios tampoco pudieron iniciar sesión en Xbox Live.

Para evitar este tipo de interrupciones en el futuro, Microsoft ha afirmado que están reparando el defecto de código en Azure DNS para que la caché de DNS pueda manejar adecuadamente grandes cantidades de solicitudes. También planean mejorar el monitoreo y mitigación del tráfico anómalo.

En respuesta a nuestras consultas sobre el aumento anómalo del tráfico de DNS, Microsoft declaró que no tenía nada más que compartir en ese momento.