Menos de una semana después de una interrupción de la red de Google Cloud que interrumpió servicios como la aplicación de mensajería multimedia Snapchat, la plataforma de mensajería de Facebook, WhatsApp, ha experimentado una interrupción.

La empresa de monitoreo de redes ThousandEyes atribuyó la corta interrupción a la pérdida de paquetes dentro del centro de datos de Cogent en Londres. WhatsApp, al igual que Facebook e Instagram, sufrió un apagón mucho mayor en marzo, con las plataformas que estuvieron inactivas durante aproximadamente 14 horas.

Análisis científico

"Los usuarios de varias ubicaciones en todo el mundo que intentaban acceder a WhatsApp no pudieron hacerlo desde las 10:50 am hasta las 11:30 am hora británica (BST) y desde la 1:10 pm - 2:13 pm BST. Miles de ellos detectaron los cortes e identificaron el problema al 100 por ciento de inactividad en el centro de datos de Londres de Cogent ".

Cogent Communications opera 52 centros de datos en América del Norte y Europa, incluido el de 20 Mastmaker Court, E149 UB, Londres.

La compañía también opera más de 90.000 kilómetros de ruta de fibra de largo recorrido y cerca de 55.000 kilómetros de fibra metropolitana que atiende a más de 820 anillos metropolitanos.

A principios de esta semana, el vicepresidente de Google de 24x7, Benjamin Treynor Sloss, proporcionó información sobre la interrupción de la compañía: "En esencia, la causa principal de la interrupción del domingo fue un cambio de configuración destinado a un pequeño número de servidores en una sola región. La configuración se aplicó incorrectamente a un gran número de servidores en varias regiones vecinas, e hizo que esas regiones dejaran de usar más de la mitad de su capacidad de red disponible.

"El tráfico de la red hacia esas regiones trató más tarde de adaptarse a la capacidad restante de la red, pero no lo hizo. La red se congestionó y nuestros sistemas de red rastrearon correctamente la sobrecarga de tráfico y redujeron el tráfico más grande y menos sensible a la latencia para conservar flujos de tráfico más pequeños y sensibles a la latencia, de la misma manera en que los paquetes urgentes pueden ser enviados en bicicleta incluso a través del peor atasco de tráfico.

"Los equipos de ingeniería de Google detectaron el problema en cuestión de segundos, pero el diagnóstico y la corrección tomaron mucho más tiempo que nuestro objetivo de unos minutos. Una vez alertados, los equipos de ingeniería identificaron rápidamente la causa de la congestión de la red, pero la misma congestión de la red que estaba creando la degradación del servicio también "Redujo la capacidad de los equipos de ingeniería para restaurar las configuraciones correctas, prolongando la interrupción. Los equipos de Google eran muy conscientes de que cada minuto que pasaba representaba otro minuto de impacto para el usuario, y brindó ayuda adicional para paralelizar los esfuerzos de restauración".