Cloudflare comparte cómo la empresa maneja el mantenimiento de servidores a escala

Cloudflare ha compartido información sobre cómo mantiene operativos sus servidores.

En una publicación de blog publicada por la compañía esta semana, Cloudflare dice que aborda el mantenimiento del servidor a través de un "presupuesto de errores", entre otras técnicas que incluyen diagnósticos de hardware autónomos.

Cloudflare, un proveedor de redes de entrega de contenido (CDN) de seguridad y Edge Computing con servidores ubicados en 310 ciudades y 120 países, ha dicho que ha desarrollado una infraestructura tolerante a fallas que puede continuar operando con "poco o ningún impacto" a consecuencia de los errores.

Antes de esto, la empresa tendría que enviar a un miembro del equipo de operaciones de su centro de datos para solucionar y diagnosticar manualmente cada falla del servidor y volver a ponerlos en funcionamiento, algo que podría llevar horas para un solo servidor.

La nueva solución es autónoma, lo que significa que puede funcionar de forma independiente sin intervención o supervisión humana, y se la ha llamado "Phoenix".

Según la publicación, Phoenix ejecuta diagnósticos autónomos y automatización de recuperación a intervalos regulares para detectar servidores que no funcionan. Después, el sistema descubre qué está mal en el servidor y recupera aquellos que pasan el diagnóstico "reaprovisionando y, en última instancia, reactivando aquellos que han sido reaprovisionados exitosamente de la manera más segura y discreta posible".

El sistema puede comprender la causa del fallo y revertir el estado del servidor en consecuencia.

Phoenix funciona cada 30 minutos en un máximo de dos centros de datos a la vez, lo que significa que toda la flota de Cloudflare está cubierta en tres días. En cada ejecución, también toma nota de los servidores que ya están en cola para recuperación y se asegura de que el problema se resuelva de inmediato.

Si los servidores no se pueden recuperar por completo, Phoenix los evaluará y podrá regresar al estado de reparación para una evaluación adicional. Si necesitan reemplazar un componente físico, se notifica al equipo de operaciones del centro de datos.

Cloudflare también le ha enseñado a Phoenix que si hay otras operaciones de automatización que ejecutan, como expansiones, solo realizará verificaciones cuando sea seguro hacerlo para que la operación de recuperación no interfiera con otras operaciones del centro de datos.

La tolerancia a fallos también está incorporada. "Esto significa que es capaz de lidiar con gracia con servidores que se comportan mal al permitir que salgan rápidamente de la lista de candidatos de recuperación en caso de un mal comportamiento que impida bloquear la operación", dice la publicación.

Cloudflare ha reconocido además que "no todos los servidores rotos se pueden volver a habilitar y volver a poner en producción con éxito y, lo que es más importante, no hay una garantía del 100 por cien de que un servidor recuperado será tan estable como los que no tienen historial de reparaciones". La solución a esto es lo que la compañía llama un 'Presupuesto de error' en el que el sistema Phoenix detiene las recuperaciones sin ninguna intervención humana si el servidor falla un cierto número de veces en una ventana determinada.

A principios de este año, Cloudflare reveló que había extendido la vida útil del hardware de su servidor a cinco años, ahorrando así alrededor de 20 millones de dólares. Los hyperscalers, incluidos Amazon, Google, Microsoft y Meta, han adoptado medidas similares.

A lo largo de 2023, Cloudflare implementó con éxito GPU en 120 ciudades para su red Edge. A finales de este año, la compañía prevé haber desplegado los aceleradores en "prácticamente todas las ciudades" que componen su red global.

Cloudflare comparte cómo la empresa maneja el mantenimiento de servidores a escala

Etiquetas