Amazon Web Services ha desarrollado sus propios sistemas de suministro de energía ininterrumpida (UPS) en rack para minimizar el riesgo de tiempo de inactividad.
La compañía declaró durante la presentación que ha diseñado el sistema para que fuera lo más simple posible y construyó software sin campanas y silbidos para reducir el riesgo que conlleva la complejidad.
"Cuanto más complicado es un componente, es más probable que tenga un problema", dijo el vicepresidente de infraestructura global, Peter DeSantis, en el discurso de apertura de infraestructura de AWS.
Durante años, Amazon Web Services ha utilizado la configuración estándar de UPS de salas dedicadas llenas de baterías de plomo-ácido. "No somos los únicos que hemos llegado a la conclusión de que un solo UPS no es lo suficientemente confiable", dijo DeSantis. “Mucha gente ha trabajado en soluciones, el enfoque común es agregar más redundancia al diseño, generalmente agregando un segundo UPS. Esto se hace usando una función del UPS que le permite conectarse en paralelo con otros UPS."
Los servidores de la compañía funcionan con dos líneas de alimentación independientes, explicó DeSantis. "Cada línea tiene su propio tablero de distribución, su propio generador, su propio UPS, incluso sus propios cables de distribución. Al mantener estas líneas completamente independientes, hasta el rack, podemos brindar una disponibilidad muy alta y proteger nosotros mismos de problemas con el UPS.
"Nuestros centros de datos que ejecutan este diseño logran una disponibilidad de casi siete nueves (99,99997 por ciento)".
Pero eso todavía no es suficiente, dijo DeSantis, ya que tener grandes sistemas UPS representa un riesgo. "En lugar de usar un UPS grande de terceros, ahora usamos pequeños paquetes de baterías y fuentes de alimentación personalizadas que integramos en cada rack. Puede pensar en esto como un micro-UPS, pero es mucho menos complicado. Y debido a que lo diseñamos nosotros mismos, sabemos todo al respecto y controlamos todas las piezas del software; esto nos permite eliminar la complejidad de las funciones que no son necesarias, y podemos iterar a la velocidad de Amazon para mejorar el diseño.
Las baterías también se pueden quitar y reemplazar en segundos en lugar de horas, y puede hacerlo sin apagar el sistema. Esto permite reducir drásticamente el riesgo de mantenimiento que debemos hacer en los estantes de las baterías.
La compañía ha desarrollado otros sistemas internos, y DeSantis detalla cómo la compañía desarrolló su propio software de aparamenta, algo que la compañía reveló en 2016.
"La aparamenta es un equipo bastante sencillo, es grande y súper importante, pero en realidad es solo un montón de disyuntores mecánicos, algunos equipos de detección de energía y un sistema de control de software simple", dijo DeSantis. "Ese sistema de control es simple, pero es software. La mayoría de los proveedores se refieren a él como firmware, pero eso solo significa que es software integrado que se guarda en un módulo de memoria persistente. Y un software que no es de su propiedad y que está en su la infraestructura puede causar problemas".
Por ejemplo, si AWS encuentra un error, podrían pasar semanas trabajando con el proveedor para reproducir ese error en su entorno. "Y luego esperas meses para que el proveedor produzca una solución y la valide. Y en el mundo de la infraestructura, tienes que tomar esa solución y aplicarla a todos estos dispositivos, y es posible que tengas que enviar a un técnico para que lo haga manualmente; y cuando haya terminado, puede haber llevado fácilmente un año solucionar un problema."
El otro problema es que el firmware del conmutador está desarrollado para numerosos casos de uso, por lo que viene con características extrañas que no tienen sentido para una instalación de AWS. "Hace años, desarrollamos nuestro propio sistema de control de aparamenta. Esto puede parecer bastante simple y, de hecho, hemos invertido mucho para mantenerlo lo más simple posible, no agregamos características sofisticadas a nuestro controlador."
"Hoy en día, utilizamos docenas de diferentes marcas y modelos de conmutadores de varios socios. Pero todos están controlados por nuestro firmware, y esto significa que podemos operar nuestro centro de datos global exactamente de la misma manera en todas partes".