Tenemos una fe casi mística en la capacidad de la inteligencia artificial (IA) para comprender y resolver problemas. Se está aplicando en muchas áreas de nuestra vida diaria y, como resultado, el hardware para permitir esto está comenzando a poblar nuestros centros de datos.

Los centros de datos en sí mismos presentan una serie de problemas complejos, que incluyen la optimización y la predicción. Entonces, ¿qué tal usar esta tecnología milagrosa para mejorar nuestras instalaciones?

Girando la IA hacia adentro

AIgrowth.width-358.png

El aprendizaje automático, y especialmente el aprendizaje profundo, puede examinar un gran conjunto de datos y encontrar patrones dentro de él que no dependen del modelo que los humanos usarían para comprender y predecir esos datos. También puede predecir patrones que se repetirán en el futuro.

Los centros de datos ya están bien instrumentados, con sensores que proporcionan muchos datos históricos y en tiempo real sobre el desempeño de TI y los factores ambientales. En 2016, Google llegó a los titulares cuando aplicó IA a esos datos, para mejorar la eficiencia.

Google utilizó DeepMind, la tecnología de inteligencia artificial que posee, para optimizar el enfriamiento en sus centros de datos. En 2014, la compañía anunció que el ingeniero del centro de datos Jim Gao estaba usando la tecnología de inteligencia artificial para implementar un motor de recomendación.

En 2016, el proyecto optimizó la refrigeración en las instalaciones de Google en Singapur, utilizando un conjunto de redes neuronales que aprendieron a predecir las temperaturas futuras y proporcionar sugerencias para responder de manera proactiva,

Los resultados redujeron el 40 por ciento de la factura de enfriamiento del sitio y el 15 por ciento de su PUE (eficacia de utilización de energía), según Richard Evans, ingeniero de investigación de DeepMind. En 2016, prometió: "Debido a que el algoritmo es un marco de uso general para comprender dinámicas complejas, planeamos aplicar esto a otros desafíos en el entorno del centro de datos y más allá".

El siguiente paso, anunciado en 2018, fue acercarse a un sistema de enfriamiento de centro de datos autónomo, donde la IA modifica la configuración operativa del centro de datos, bajo supervisión humana. Para asegurarse de que el sistema funcionara de manera segura, el equipo restringió su funcionamiento, por lo que el sistema automático "solo" ahorra un 30 por ciento en la factura de enfriamiento.

IA.jpg

El sistema toma una instantánea del sistema de enfriamiento del centro de datos con miles de sensores cada cinco minutos y lo alimenta a un sistema de inteligencia artificial en la nube. Esto predice cómo las acciones potenciales afectarán el consumo de energía futuro y elige la mejor opción. Esto se envía al centro de datos, se verifica mediante el sistema de control local y luego se implementa.

El equipo del proyecto informó que el sistema había comenzado a producir optimizaciones inesperadas. Dan Fuenffinger, uno de los operadores de centros de datos de Google que ha trabajado extensamente junto con el sistema, comentó: "Fue sorprendente ver a la IA aprender a aprovechar las condiciones invernales y producir agua más fría de lo normal, lo que reduce la energía necesaria para enfriarse dentro del centro de datos. Las reglas no mejoran con el tiempo, pero la IA sí”.

Según Gao, la gran victoria aquí fue demostrar que el sistema funciona de manera segura y eficiente. Las decisiones se examinan contra las reglas de seguridad, y los operadores humanos pueden hacerse cargo en cualquier momento.

En esta etapa, la optimización de IA de Google tiene un cliente: el propio Google. Pero la idea tiene un fuerte respaldo de la academia.

La estabilidad importa

Los seres humanos y los sistemas simples basados ​​en reglas pueden responder a cualquier situación de estado estacionario, pero cuando el entorno cambia, reaccionan de una manera "entrecortada", y la IA puede hacerlo mejor, porque puede predecir cambios, según la nota clave de Suvojit Ghosh, quien dirige el Centro de Investigación de Infraestructura de Computación (CIRC) en la Universidad McMaster de Ontario.

"Sabemos que es malo ejecutar servidores demasiado calientes", dijo Ghosh. "Pero aparentemente es aún peor si tiene fluctuaciones de temperatura". Reglas simples llevan al centro de datos rápidamente a la mejor posición de estado estable, pero en el proceso, hacen cambios bruscos de temperatura, y resulta que esto desperdicia mucha energía. Si las condiciones cambian con frecuencia, estas pérdidas de energía pueden cancelar las ganancias.

"Si tiene un ambiente que va de 21-27 ° C y retrocede, eso realmente duele", dijo Ghosh.

Las empresas de servicios de centros de datos están respondiendo. Las empresas de gestión de infraestructura de centros de datos (DCIM) han agregado inteligencia, y las que ya están haciendo análisis predictivos han agregado aprendizaje automático.

"Los aspectos actuales del aprendizaje automático se encuentran en la etapa inicial de procesamiento de datos de la plataforma, donde los datos sin procesar de los sensores y medidores se normalizan, limpian, validan y etiquetan antes de ingresar al motor de modelado predictivo", dijo Zahl Limbuwala, cofundador de Romonet, una empresa de análisis ahora propiedad de la empresa inmobiliaria CBRE.

El movimiento de inteligencia en potencia y enfriamiento tiene diferentes nombres. En China, la apuesta de Huawei por hacer que la energía, la refrigeración y el DCIM sean más inteligentes se encuentra bajo los nombres en código iPower, iCooling e iManager.

Al igual que Google y otros, Huawei está comenzando con pasos prácticos simples, como el uso de la coincidencia de patrones para controlar la temperatura y detectar evidencia de fugas de refrigerante. En los sistemas de energía, está trabajando para identificar y aislar fallas usando IA.

En su centro de datos Langfang, con 1.540 racks, Huawei ha reducido PUE sustancialmente usando iCooling, según el gerente de mercadeo Zou Xiaoteng. La instalación opera a alrededor de 6kW por rack con una tasa de carga de TI del 43 por ciento.

El proveedor de DCIM, Nlyte, clavó sus colores firmemente en el mástil de DCIM en 2018, cuando se inscribió para integrar sus herramientas con uno de los proyectos de IA de más alto perfil del mundo, Watson de IBM.

Al lanzar la asociación en DCD> Nueva York ese año, el CEO de Nlyte, Doug Sabella, predijo que el DCIM mejorado con IA conduciría a grandes cosas: "Las cosas simples están relacionadas con el mantenimiento preventivo", dijo a DCD. "Pero yendo más allá de las cosas predictivas, realmente te estás metiendo en las cargas de trabajo y administrando las cargas de trabajo. Piénselo en términos de gestión del rendimiento de la aplicación: hoy, selecciona dónde colocará una carga de trabajo en función de un conjunto finito de datos. ¿Lo pongo en la nube pública o en mi nube privada? ¿Cuáles son los atributos que ayudan a determinar la ubicación y la infraestructura?

"Existe un conjunto completo de información crítica que no está incluida en esa determinación, pero desde el punto de vista de la inteligencia artificial, puede contribuir para reducir realmente sus cargas de trabajo y optimizar sus cargas de trabajo y reducir el riesgo de fallas en la carga de trabajo". Aquí vemos todo un juego de IA que vemos y que nuestro compañero ve, con el que estamos trabajando en esto, que tendrá un gran impacto”.

Amy Benett, líder de marketing de Norteamérica para IBM Watson IoT, vio otro lado práctico: "He aquí, un nuevo miembro del equipo del centro de datos, uno que nunca se toma unas vacaciones o un almuerzo desde la sala de descanso".

DCD entiende que la asociación continúa. La marca Watson se ha visto empañada por los informes de que no está cumpliendo lo prometido en áreas más exigentes como la atención médica. Es posible que este líder de la marca anterior haya sido sobrevendido, pero si es así, los centros de datos podrían ser una arena para restaurar su buen nombre. El sistema vital de un centro de datos es mucho más simple que el cuerpo humano.

DCD New York Q&A with Dr. Suvojit Ghosh, McMaster University - 5sb54Ata84c

La siguiente etapa

Es hora de que la IA busque problemas más grandes, dice Ghosh, haciéndose eco del punto de Sabella. Después del hipo inicial, los esfuerzos para mejorar la potencia y la eficiencia de enfriamiento eventualmente alcanzarán un punto de rendimientos decrecientes. En ese punto, la IA puede comenzar a mover las cargas de TI por sí mismas:

"Utilizando el costo del historial de cómputo para hacer un equilibrio de carga inteligente u orquestación de contenedores, puede reducir el costo de energía de una aplicación en particular", dijo Ghosh a su audiencia de DCD. Potencialmente, esto podría ahorrar la mitad del costo de energía de TI, "simplemente reorganizando los trabajos [con IA], y esto no tiene en cuenta apagar los servidores inactivos ni nada de eso".

Más allá de eso, Ghosh está trabajando en el análisis de IA de los sonidos en un centro de datos. "Las personas experimentadas pueden decirle que algo está mal, porque suena gracioso", dijo. CIRC ha estado creando perfiles de sonido de centros de datos y relacionándolos con el consumo de energía.

Huawei también está haciendo esto: "Si hay un problema en un transformador, el patrón de ruido cambia", dijo Zou Xiaoteng. "Al aprender el patrón de ruido del transformador, podemos usar la tecnología acústica para monitorear el estado del transformador".

Este tipo de enfoque permite que la IA se extienda más allá del conocimiento humano experto y capte "cosas que la cognición humana nunca puede entender", dijo Ghosh.

"En los próximos 10 años, podremos predecir fallas antes de que sucedan", dijo Ghosh. "Uno de mis sueños es crear un algoritmo que elimine por completo la necesidad de mantenimiento preventivo".

Xiaoteng de Huawei reconoce que también hay beneficios menos tangibles: la IA puede mejorar la utilización de los recursos en aproximadamente un 20 por ciento al tiempo que reduce el error humano.

Xiaoteng ve a la IA subiendo una escalera desde el nivel cero, el centro de datos completamente manual. “En el nivel uno, la función básica es visualizar el contenido del centro de datos con sensores, y en el nivel dos, tenemos algo de asistencia y operación parcialmente desatendida”, donde el centro de datos informará las condiciones al ingeniero, quien responderá de manera adecuada.

En el nivel tres, el centro de datos comienza a ofrecer su propio análisis de causa raíz y ayuda virtual para resolver problemas, dijo. Huawei ha llegado a esta etapa, dijo: "En el futuro, creo que podemos usar la inteligencia artificial para predecir si hay algún problema y utilizar la inteligencia artificial para recuperar el centro de datos".

En esta etapa, los sistemas DCIM pueden incluso beneficiarse de procesadores de IA especializados, predijo. Huawei ya está experimentando con el uso de sus procesadores AI de la serie Ascend para trabajar en asociación con su DCIM en ambos lados de la nube y el borde.

En este momento, la mayoría de los usuarios todavía están en las primeras etapas en comparación con estas ideas, pero algunos comparten claramente este optimismo: "Hoy usamos la IA para monitorear los puntos de ajuste", dijo Eric Fussenegger, gerente de sitio de una instalación de misión crítica en Wells Fargo, hablando en DCD> Nueva York en 2019, agregando a DCIM y "mejorando el panel de vidrio único".

La IA podría ponerse física, más en el futuro, dijo Fussenegger, en un lado fascinante. "La tinta aún no está seca, tal vez ni siquiera haya tocado el papel", dijo, pero los dispositivos inteligentes podrían desempeñar un papel en el mantenimiento físico y la operación diaria de un centro de datos.

Un día, los robots podrían hacerse cargo de "equipos de limpieza o trasiego para nosotros, por lo que no tengo que preocuparme de que el personal esté en áreas de pasillos fríos y calientes. Hay tiendas de comestibles que utilizan IA para barrer".

Sin embargo, incluso estos puntos de vista extremos son moderados. Fussenegger dijo: "Creo que siempre vamos a necesitar humanos allí como respaldo".