Un error operacional empeora la última caída de Azure

Contenido Archivado

El siguiente contenido es de una versión anterior de este sitio web y es posible que no se muestre correctamente.

La semana pasada, la plataforma cloud de Microsoft sufrió una caída de once horas en el hemisferio norte, en la que se vieron involucrados 19 data centers en una especie de “efecto dominó”. El incidente se produjo el martes, pero las consecuencias todavía afectaban a los usuarios de Europa el pasado viernes.

Este desastre puede retrasar significativamente los esfuerzos de la compañía por posicionar Azure como un proveedor cloud fiable, y proporciona un incentivo a rivales como IBM, Google y otras compañías con plataformas similares.

A ello se suma la noticia de que un error operacional extendió la caída –si la compañía no hubiera escatimado esfuerzos, el apagón podría haber sido relativamente menor.

Para dificultar aún más la situación, los clientes que habían apostado todo por la plataforma Azure se encontraron con que tenían problemas incluso para informar de la caída a sus usuarios, puesto que todas las comunicaciones digitales se habían caído.

Jason Zander, del equipo de Microsoft Azure, indicó en un blog la explicación a este incidente: “Como parte de una actualización de rendimiento en Azure Storage, se descubrió un problema que dio lugar a una capacidad reducida en los servicios que utilizan Azure Storage, incluyendo Virtual Machines, Visual Studio Online, Websites, Search y otros servicios de Microsoft”.

El cambio de configuración había sido introducido como parte de la actualización de Azure Storage para mejorar el rendimiento. Esta modificación había sido desplegada en algunos clusters de producción en las últimas semanas y estaba funcionando según lo esperado.

Pero, posteriormente, se descubrió un fallo importante que en un inicio había pasado desapercibido y que impedía el tráfico en el sistema.

El cambio de configuración se llevó a todo el servicio de producción. El problema se expandió rápidamente, puesto que la actualización se llevó a cabo en la mayoría de regiones en un corto periodo de tiempo debido a un error operacional, en lugar de seguir el protocolo estándar de aplicar cambios de producción en tandas incrementales.

Una vez que se detectó el problema, se revirtió rápidamente el cambio de configuración, aunque los servicios ya se habían visto afectados.