¿Demasiado grande para fallar? La interrupción global de Facebook

Cuanto mayor sea la interrupción, mayor será la necesidad de explicaciones y, lo que es más importante, de tomar medidas para evitar que se repita.

Desde cualquier punto de vista, la interrupción que afectó a Facebook el lunes 4 de octubre fue grande. Durante más de seis horas, Facebook y sus otros negocios, incluidos WhatsApp, Instagram y Oculus VR, desaparecieron de Internet, no solo en unas pocas regiones o países, sino a nivel mundial. Tantos usuarios y máquinas volvieron a intentar entrar a estos sitios web, que provocó una ralentización de Internet y problemas con las redes móviles.

Si bien Facebook es lo suficientemente grande como para soportar el impacto financiero inmediato, no debe descartarse. Los observadores del mercado estiman que la interrupción le costó a Facebook aproximadamente 60 millones de dólares en ingresos durante su período de más de seis horas. Las acciones de la compañía cayeron 4.9 por ciento en el día, lo que se tradujo en más de 47 mil millones de dólares en capitalización de mercado perdida.

Pérdidas de reputación

Facebook puede recuperar esas pérdidas, pero las ramificaciones más importantes pueden ser legales y de reputación. La investigación del Uptime Institute muestra que el nivel de interrupciones de los operadores de hiperescala es similar al experimentado por las empresas de coubicación, a pesar de sus enormes inversiones en zonas de disponibilidad distribuida y gestión global de carga y tráfico. En 2020, Uptime Institute registró 21 cortes gigantes de la nube / Internet, con daños financieros y de reputación asociados. Con el antimonopolio, la privacidad de los datos y, más recientemente, las preocupaciones sobre la salud mental de los niños arremolinándose en Facebook, es poco probable que la compañía acepte un mayor escrutinio legal y de reputación.

¿Cuál fue la causa de la interrupción de Facebook? La compañía dijo que se emitió un comando erróneo durante el mantenimiento planificado de la red. Si bien una herramienta de auditoría automatizada normalmente detectaría un comando errante, hubo un error en la herramienta que no lo detuvo correctamente. El comando provocó cambios en la configuración de los enrutadores troncales de Facebook que coordinan el tráfico de red entre sus centros de datos. Esto tuvo un efecto en cascada que detuvo los servicios de Facebook.

Dejando de lado las teorías de sabotaje deliberado, existe evidencias de que las rutas de Internet de Facebook (Border Gateway Protocol, o BGP) se retiraron por error como parte de estos cambios de configuración.

BGP es un mecanismo para que los grandes enrutadores de Internet intercambien constantemente información sobre las posibles rutas para que entreguen paquetes de red. BGP proporciona efectivamente listas muy largas de posibles rutas de enrutamiento que se actualizan constantemente. Cuando Facebook dejó de transmitir su presencia, algo observado por los sitios que monitorean y administran el tráfico de Internet, otras redes no pudieron encontrarlo.

Un factor que exacerbó la interrupción es que Facebook tiene un diseño de infraestructura de Internet atípico, específicamente relacionado con BGP y otro acrónimo de tres letras: DNS, el sistema de nombres de dominio. Mientras que BGP funciona como el mapa de enrutamiento de Internet, el DNS sirve como su libreta de direcciones. (El DNS traduce los nombres amigables para los humanos de los recursos en línea en direcciones de protocolo de Internet amigables para las máquinas).

Facebook tiene su propio registrador de DNS, que administra y transmite sus nombres de dominio. Debido a la arquitectura de Facebook, diseñada para mejorar la flexibilidad y el control, cuando ocurrió el error de configuración de BPG, el registrador de Facebook se desconectó. (Aparte, esto provocó que algunas herramientas de dominio mostraran erróneamente que el dominio Facebook.com estaba disponible para la venta). Como resultado, los proveedores de servicios de Internet y otras redes simplemente no pudieron encontrar la red de Facebook.

¡Facebook ralentizó la Internet de todos!

¿Por qué esto provocó una ralentización de Internet? Miles de millones de sistemas, incluidos los dispositivos móviles que ejecutan una aplicación propiedad de Facebook en segundo plano, solicitaban constantemente nuevas "coordenadas" para estos sitios. Por lo general, estas solicitudes se almacenan en caché en servidores ubicados en el Edge, pero cuando las rutas BGP desaparecieron, también desaparecieron esas cachés. Las solicitudes se enrutaron en sentido ascendente a grandes servidores de Internet en centros de datos centrales.

La situación se vio agravada por un ciclo de retroalimentación negativa, causado en parte por la lógica de la aplicación y en parte por el comportamiento del usuario. Las aplicaciones web no aceptarán un error de enrutamiento de BGP como respuesta a una solicitud, por lo que vuelven a intentarlo, a menudo de manera agresiva. Los usuarios y sus dispositivos móviles que ejecutan estas aplicaciones en segundo plano tampoco aceptarán un error y volverán a cargar repetidamente el sitio web o reiniciarán la aplicación. El resultado fue un aumento de hasta un 40% en el tráfico de solicitudes de DNS, lo que ralentizó otras redes (y, por lo tanto, aumentó la latencia y las solicitudes de tiempo de espera para otras aplicaciones web). Según se informa, el aumento del tráfico también generó problemas con algunas redes celulares, incluidos los usuarios que no pueden realizar llamadas telefónicas de voz sobre IP.

La interrupción de Facebook fue causada inicialmente por un mantenimiento rutinario de la red que salió mal, pero una herramienta de auditoría pasó por alto el error y se propagó a través de un sistema automatizado, que probablemente fueron ambos creados por Facebook. Según los informes, el error de comando impidió que los administradores remotos revertieran el cambio de configuración. Además, las personas con acceso a los enrutadores físicos de Facebook (en los centros de datos de Facebook) no tenían acceso a la red / sistema lógico. Esto sugiere dos cosas: la herramienta y el proceso de auditoría de mantenimiento de la red no se probaron adecuadamente y hubo una falta de personal especializado con acceso físico al sistema de red dentro de los centros de datos de Facebook.

Cuando las únicas personas que pueden solucionar un posible problema de mantenimiento de la red dependen de la red en la que se está trabajando, parece obvio que se debe implementar un plan de contingencia.

Facebook, que al igual que otros gigantes de la nube / Internet tiene procesos rigurosos para aplicar las lecciones aprendidas, debería estar mejor protegido la próxima vez. Pero la investigación de Uptime Institute muestra que no hay garantías: los gigantes de la nube / Internet son particularmente vulnerables a los errores de configuración de red y software, en función de su complejidad y la interdependencia de muchos centros de datos, zonas, sistemas y redes administradas por separado. Diez de las 21 interrupciones en 2020 que afectaron a los gigantes de la nube / Internet fueron causadas por errores de software / red. El hecho de que estos errores puedan causar acumulaciones de tráfico que luego pueden enredar aplicaciones completamente no relacionadas a nivel mundial preocupará aún más a todos aquellos que dependen de la infraestructura digital compartida públicamente, incluido Internet.

¿Demasiado grande para fallar? La interrupción global de Facebook

Pérdidas de reputación

¡Facebook ralentizó la Internet de todos!

Por Rhonda Ascierto vicepresidenta de investigación en Uptime Institute

Etiquetas