Hay pocos aspectos del mundo actual que no se ven afectados por la inteligencia artificial y el aprendizaje automático. Los sistemas automatizados se pueden utilizar para predecir fallas y responder a las necesidades de capacidad, y están allanando el camino para la era del centro de datos de "luces apagadas".
Pero mientras que las soluciones de AI y ML preempaquetadas que están listas para salir de la caja están disponibles, aún requieren a menudo la integración para funcionar más allá de las soluciones puntuales individuales. Y aunque las implementaciones de IA de bricolaje son completamente factibles, requieren una inversión en sensores para recopilar los datos y la experiencia y manipularlos para convertirlos en algo utilizable.
“Los actores gigantes de la industria ya lo han estado haciendo durante varios años, pero la mayoría de las empresas de centros de datos están comenzando a configurar sus canales de recopilación de datos y MLOps”, opina Maciej Mazur, Gerente de Producto para AI / ML, Canonical.
Pero si bien empresas como Google están bien posicionadas para desarrollar e implementar dicha tecnología, ¿qué tan disponibles están la IA y el aprendizaje automático para los propietarios y operadores de centros de datos pequeños y medianos?
La IA mostrando su valor en el centro de datos
Para los hiperescaladores y los proveedores de nube pública, la inteligencia artificial y el aprendizaje automático ya son parte integrante de la implementación y las operaciones del centro de datos. Google ha detallado anteriormente cómo usa DeepMind AI para enfriamiento y pudo reducir el PUE en un 15 por ciento a través de la administración automática de variables, incluidos ventiladores, sistemas de enfriamiento y ventanas. La compañía también ha utilizado Deepmind para predecir la producción de aerogeneradores con hasta 36 horas de antelación, que utilizó para predecir las necesidades de energía de sus instalaciones conectadas a parques eólicos.
"Alibaba Cloud implementó sistemas de alerta de temperatura basados en ML en su centro de datos global", explica Wendy Zhao, directora sénior e ingeniera principal de Alibaba Cloud Intelligence. "Tomamos cientos de datos de monitoreo de series de tiempo de sensores de temperatura, utilizando un modelo de gráfico ensamblado para identificar de manera rápida y precisa un evento de temperatura debido a fallas en las instalaciones de enfriamiento".
"Generaba alertas con mucha más antelación y proporcionaba al equipo de operaciones del centro de datos un tiempo precioso para responder a la falla, reduciendo así el impacto de la falla".
El enfriamiento y el mantenimiento predictivo fueron los casos de uso más citados para la IA en el centro de datos, según las personas con las que habló DCD. La administración de energía, la administración de la carga de trabajo y la seguridad fueron casos de uso potenciales que aún no han experimentado una tracción significativa.
"Ha habido innovaciones interesantes, en particular de organizaciones como Google, que están mostrando el enorme potencial que la IA puede proporcionar", dice Dave Sterlace, director de tecnología, soluciones de centros de datos globales de ABB. "El potencial está ahí y se está demostrando, pero aún no está muy extendido".
Oliver Goodman, Director de Ingeniería de Telehouse Europe, dice que su empresa recopila datos sobre la temperatura, la humedad de las instalaciones y el grado de funcionamiento de la infraestructura para comprender qué se puede hacer para prolongar la vida útil de los equipos y si se pueden hacer ahorros en términos de eficiencia energética y el gasto de capital de actualizaciones y reemplazos de piezas.
“La IA puede recopilar datos como la carga de clientes, las temperaturas de los pasillos y la humedad en cada sala de datos y realizar una acción basada en ciertos puntos de activación o de ajuste. Por lo tanto, si la carga de clientes supera un cierto nivel, la infraestructura de enfriamiento se puede aumentar o disminuir para proporcionar suficiente enfriamiento de la manera más eficiente desde el punto de vista energético.
Callum Faulds, director de Linesight UK, agrega que la inteligencia artificial ha sido útil durante la pandemia para mantener una cantidad mínima de personal en el lugar y proteger a los que están allí.
"Las aplicaciones de seguridad y protección, como controles automáticos de temperatura, autorización sin contacto, sistemas de control y pago y monitoreo del tráfico, que desempeñaron un papel vital durante la pandemia, probablemente permanecerán en el futuro".
El aprendizaje automático también se puede implementar además de la inteligencia artificial para comprender automáticamente los patrones de carga y predecir cuándo ocurrirán las fluctuaciones, así como para las operaciones de infraestructura; por ejemplo, para transferencia de carga o conmutación inteligente entre equipos redundantes y resistentes. Esto libera los recursos operativos para concentrarse en el mantenimiento y las reparaciones en lugar de los ciclos de funcionamiento de la planta".
Sin embargo, Sterlace de ABB agrega que las conversaciones con muchos clientes todavía se centran en las primeras fases de lo que es el aprendizaje automático y la inteligencia artificial, y los beneficios potenciales que podría traer en lugar de la implementación.
Los proveedores aún están demasiado cerrados para la inteligencia artificial generalizada, los datos deben ser más abiertos
Los proveedores están comenzando a incorporar el aprendizaje automático y la inteligencia artificial en sus productos, pero a menudo siguen siendo soluciones puntuales que no funcionan bien con otros. Aunque a veces se habla de él, aún no ha surgido un solo ' Siri para el centro de datos ' o panel de vidrio que pueda administrar todos los aspectos de un centro de datos.
“Los proveedores brindan soluciones, pero la mayoría brindan una solución que es específica para productos en particular, a menudo de este mismo proveedor, lo que hace que el proveedor se bloquee”, dice David Cheriton, científico jefe del centro de datos de Juniper Networks.
“Las operaciones y la gestión del centro de datos siguen siendo muy fragmentadas debido a la pila de equipos típicamente heterogénea”, añade Michael Cantor, CIO de Park Place Technologies. "Los diferentes proveedores tienen diferentes niveles de capacidad, y yo diría que pocos están incorporando la verdadera IA / ML en su pila de operaciones".
Sin embargo, Goodman de Telehouse dice que gran parte de la innovación de los grandes hiperescaladores se filtrará finalmente a los operadores más pequeños como terceros que están ayudando a empresas como Google a escindirse y a llevar sus propios productos al mercado.
“Los costos de desarrollar una IA interna son altos y lo son aún más cuando se tienen las variaciones de infraestructura de una empresa de colocación, sin embargo, el mercado de productos de IA está creciendo con muchos nuevos jugadores cada año, y esta será una oportunidad fantástica para la mejora del centro, incluidos los sitios heredados, independientemente del tamaño y la cantidad de su patrimonio".
Desarrollar la IA internamente no es imposible para quienes deseen intentarlo
Si bien los modelos y casos de uso más avanzados requerirán experiencia en ciencia de datos interna dedicada, es posible comenzar a desarrollar sus propios modelos utilizando herramientas de aprendizaje automático de autoservicio como AWS SageMaker, suponiendo que las instalaciones puedan recopilar los datos correctos.
“Una PYME puede contratar un equipo muy pequeño de ingenieros de datos que pueden usar modelos listos para usar, por ejemplo, del catálogo de NVIDIA NGC”, dice Mazur de Canonical. “Cualquiera puede configurar una canalización de MLOps y comenzar a recopilar datos de una manera que sea útil para los científicos de datos. Con respecto a la escala, es mejor tomar los modelos existentes disponibles en línea y ajustarlos al centro de datos para casos de uso más pequeños, pero vale la pena invertir en modelos de ML personalizados para más de 1.000 servidores".
"Un modelo se puede entrenar con un par de meses de recopilación de datos con una frecuencia de muestreo de unos pocos minutos", dice Zhao de Alibaba. “Algunos equipos ya proporcionan datos de seguimiento estructurados. Sería realmente útil establecer algunos estándares de la industria de formato de datos de monitoreo para que los sigan los principales fabricantes de equipos de centros de datos, lo que acelerará la adopción de tecnologías AI / ML ".
Si bien muchos sistemas solían usar protocolos cerrados que dificultaban la extracción de datos para su uso en un sistema de control o IA más amplio, Goodman dice que ahora estamos viendo una adopción mucho mejor a través del uso de interfaces de comunicación de protocolo abierto y común, y esto es algo su empresa especifica deliberadamente en proveedores.
“En este momento, hay una gran cantidad de datos recopilados que no siempre se utilizan bien y de los que podemos sacar más provecho. Ahí es donde la mayoría de los operadores pueden buscar grandes ganancias y avanzar hacia la implementación de más sensores que ayuden más allá de eso”, dice. "A medida que la tecnología de sensores se vuelve más barata y las redes de comunicaciones detrás de ellos y la recopilación de datos se vuelven más robustas, los productos de inteligencia artificial detrás de ellos estarán más establecidos, pero solo si hay un caso de uso convincente".
La modernización de la IA en el centro de datos sigue siendo un desafío, pero no imposible
La implementación de AI & ML en un sitio nuevo construido con los últimos y mejores equipos y técnicas es completamente posible si una empresa así lo desea. Pero muchos centros de datos tienen décadas de antigüedad y contienen equipos que son anteriores a las últimas innovaciones en el espacio, que requieren más trabajo para ser 'inteligentes'.
“Aunque los centros de datos modernos no se parecen a los edificios comerciales tradicionales, son piezas de infraestructura especialmente diseñadas, muchos todavía se construyen utilizando métodos tradicionales y adoptan estrategias de diseño que a menudo hacen que los subsistemas individuales se dividan en sistemas independientes o silos y hagan suposiciones implícitas sobre las fallas del sistema de control, a menudo a un costo considerable”, dice Sterlace de ABB.
“Por ejemplo, los sistemas de gestión tradicionales que en realidad no realizan ninguna gestión, solo supervisan, y en los que los subsistemas individuales se gestionan a sí mismos y excluyen cualquier posibilidad de coordinación mutua, son comunes. Ningún proveedor de sistemas en general tiene la tarea de la unificación o consolidación".
Si bien la actualización de la IA puede ser una tarea difícil, es muy posible que las empresas estén dispuestas a dedicar tiempo y esfuerzo para instalar sensores, y asumiendo que los clientes permitirán una evaluación cercana de su hardware durante cualquier proyecto de este tipo en las instalaciones de colo, y crear los modelos de datos.
“Las empresas que estén considerando desarrollar su propia IA / ML para la administración del centro de datos necesitarán sensores en todas las partes del centro de datos para monitorear la temperatura, la humedad y el consumo de electricidad por rack, fila, jaula, habitación, etc.”, dice Yann Lechelle, CEO de Scaleway. “Para monitorear los equipos eléctricos mecánicos, se debe implementar un sistema de información adecuado para registrar los datos de manera industrial. Solo entonces puede ocurrir un procesamiento de datos adecuado. En nuestro último centro de datos, tenemos 2500 sensores por habitación para 11 habitaciones".
“Es totalmente factible adaptar una antigua instalación a un mundo impulsado por la inteligencia artificial con dispositivos externos de IoT y también hemos explorado y verificado su viabilidad en algunas de las instalaciones de Alibaba Cloud”, agrega Zhao.
Como ejemplo, Mazur de Canonical dice que creó una solución de mantenimiento predictivo para un operador de telecomunicaciones: “Usé placas simples, esencialmente equivalentes a Raspberry Pi, que estaban conectadas a dispositivos más antiguos para recopilar datos y ejecutar pequeños modelos de aprendizaje automático localmente. Estos modelos se exportaron a la nube, luego, dispositivos similares compitieron entre sí, como en la liga AWS DeepRacer".
Sin embargo, para hacer esto, los operadores deben ser valientes y planificar con anticipación. Obviamente, el tiempo de actividad y la disponibilidad son sacrosantos, por lo que cualquier tipo de actualización debe realizarse de una manera cuidadosa que no afecte las operaciones.
“Uno de los desafíos clave para automatizar las instalaciones existentes es el miedo a romperse cuando los sistemas existentes están en funcionamiento. No hace falta decir que es difícil adaptarlo sin tocarlo”, explica Cheriton de Juniper.