Vivimos en un mundo construido sobre la base de enormes avances tecnológicos en la tecnología de procesadores, con rápidos aumentos en la potencia informática que transforma drásticamente nuestra forma de vida.

Todo esto ha sido posible gracias a tres factores clave: la arquitectura von Neumann en la que se basa la gran mayoría de los procesadores; La Ley de Moore, que predijo la tendencia de un aumento en el recuento de transistores, lo que lleva a una mayor funcionalidad en el chip a un costo menor; y la escala de Dennard, leyes sobre cómo hacer que esos transistores sean más pequeños mientras su densidad de potencia se mantiene constante, lo que permite que sean más rápidos y consuman menos electricidad.

Pero el rápido crecimiento alcanzado por las soluciones tecnológicas y la ampliación está llegando a su fin. La muerte de la Ley de Moore a menudo se pronuncia, ya que las compañías de chips luchan por reducir los transistores más allá de los límites fundamentales de cuán pequeños pueden ser. La escala del dispositivo se ha ralentizado debido a consideraciones de potencia y voltaje, ya que cada vez es más difícil garantizar una funcionalidad perfecta en miles de millones de dispositivos.

Luego está el cuello de botella de von Neumann. La arquitectura von Neumann separa la memoria del procesador, por lo que los datos deben enviarse de un lado a otro entre los dos, así como al almacenamiento a largo plazo y los dispositivos periféricos. Pero a medida que aumenta la velocidad del procesador, el tiempo y la energía gastados en la transferencia de datos se ha vuelto problemático, dejando a los procesadores inactivos y limitando su rendimiento real. Este problema se ha vuelto particularmente agudo en las grandes redes neuronales de aprendizaje profundo, lo que limita el rendimiento potencial de las aplicaciones de inteligencia artificial.

Anhelando pasar de los grandes diseños de von Neumann de la década de 1940, IBM está realizando un ambicioso esfuerzo para construir un procesador diseñado para la era del aprendizaje profundo.

Utilizando dispositivos de memoria de cambio de fase, la compañía espera desarrollar hardware analógico que funcione mil veces más eficientemente que un sistema convencional, con computación en memoria no volátil que finalmente resuelva el desafío del cuello de botella.

Pero este nuevo concepto trae su propio conjunto de obstáculos tecnológicos complejos que aún no se han superado.

En una serie de entrevistas en los últimos seis meses, IBM le dio a DCD una profunda inmersión en su proyecto de varios años en curso en sus laboratorios en Zurich, Tokio, Almaden, Albany y Yorktown.

Manejo de información analógica

"Hay muchas tecnologías de aceleración de IA que estamos analizando en varios estados de madurez", dijo Bill Starke, ingeniero distinguido de IBM, desarrollo de microprocesadores de energía, a DCD. "Esta es la más emocionante que he visto en mucho tiempo". "

La memoria de cambio de fase (PCM) "originalmente estaba destinada a ser un elemento de memoria que solo almacena ceros y unos", dijo Starke. "Lo que se reconoció, descubrió e inventó aquí fue el hecho de que hay una cosa física análoga debajo", que podría usarse para procesar redes neuronales de aprendizaje profundo, así como para la memoria.

"Por el precio de una lectura de memoria, básicamente estás haciendo una operación matricial muy compleja, que es el núcleo fundamental en el medio de la IA", dijo Starke. "Y eso es algo hermoso, siento que la naturaleza nos está dando un regalo aquí".

Explotando el comportamiento único del vidrio de calcogenuro, la memoria de cambio de fase puede, como su nombre lo indica, cambiar su estado. El vidrio de calcogenuro tiene dos fases físicas distintas: una fase cristalina de alta conductancia y una fase amorfa de baja conductancia. Ambas fases coexisten en el elemento memoria. La conductancia del elemento PCM puede ser modulada incrementalmente por pequeños pulsos eléctricos que cambiarán la región amorfa en el elemento.

La resistencia general se determina luego por el tamaño de las regiones amorfas, con la disposición atómica utilizada para codificar la información. "Por lo tanto, en lugar de registrar un 0 o 1 como en el mundo digital, registra los estados como un continuo de valores entre los dos: el mundo analógico", señala IBM.

La compañía ha estado investigando PCM para la memoria durante más de una década, pero "comenzó a construir chips experimentales para aplicaciones de IA en 2007-2008", dijo a DCD Evangelos Eleftheriou, IBM Fellow, Neuromorphic & In-memory Computing, con sede en Zurich. "Y seguimos produciendo chips experimentales, uno de ellos es el chip Fusion, y tenemos más en camino".

Entrenamiento e inferencia

A_Simple_Neural_Network.original.png

Para comprender cómo las diferentes arquitecturas de chips pueden afectar las cargas de trabajo de aprendizaje profundo, primero debemos comprender algunos de los conceptos básicos de aprendizaje profundo, capacitación e inferencia.

Piense en una red neuronal de aprendizaje profundo como una serie de capas, comenzando desde la entrada de datos y terminando con el resultado. Estas capas están formadas por grupos de nodos que están conectados entre sí, ligeramente inspirados por el concepto de neuronas en el cerebro. Cada conexión tiene una fuerza o peso asignado que define cómo un nodo impacta la siguiente capa de nodos.

Durante el proceso de entrenamiento, los pesos se determinan mostrando una gran cantidad de datos, por ejemplo, imágenes de gatos y perros, una y otra vez hasta que la red recuerda lo que ha visto.

Los pesos en las diferentes capas, junto con la arquitectura de red, comprenden el modelo entrenado que luego puede usarse para fines de clasificación. Podrá distinguir a los gatos de los perros, otorgando un gran peso a las características relevantes como los bigotes, y no se verá perturbado por las características irrelevantes de bajo peso como, por ejemplo, las nubes en la imagen.

Esta fase de entrenamiento es un proceso enormemente complejo y computacionalmente intenso, en el que los pesos se actualizan constantemente hasta que la red ha alcanzado la precisión de clasificación deseada, algo que no sería práctico ejecutar cada vez que alguien quisiera identificar a un gato. Ahí es donde entra la inferencia, que toma un modelo entrenado y lo solidifica, lo ejecuta en el campo y ya no cambia los pesos.

Más trabajo por menos potencia

El objetivo a largo plazo, según Jeff Burns, director de AI Compute de IBM Research, es que PCM pueda ejecutar cargas de trabajo de inferencia y capacitación.

"Vemos una ventaja muy grande en la eficiencia de cómputo general", dijo Burns, quien también es el director del próximo Centro de Hardware AI de la compañía en Nueva York. "De modo que eso se puede realizar de la siguiente manera: si tiene una determinada carga de trabajo, haciendo esa carga de trabajo con un consumo de energía mucho, mucho menor. O, si desea permanecer en una envolvente de energía, haciendo una cantidad mucho mayor de cómputo en el mismo poder.

"Estas técnicas permitirán que una de las partes de cómputo más intensivas en cómputo se realice en tiempo lineal".

Al ajustar cuidadosamente la conductancia de los dispositivos PCM, se pueden lograr estados estables analógicos, con pesos de redes neuronales memorizados en la configuración de fase física de estos dispositivos. Al aplicar un voltaje en un solo PCM, fluye una corriente igual al producto del voltaje y la conductancia. Los investigadores de IBM Stefano Ambrogio y Wanki Kim lo explican: "La aplicación de voltajes en todas las filas de la matriz provoca la suma paralela de todos los productos individuales. En otras palabras, la Ley de Ohm y la Ley de Kirchhoff permiten la propagación totalmente paralela a través de redes totalmente conectadas, acelerando fuertemente la existencia enfoques basados ​​en CPU y GPU".

Pero esta tentadora promesa de una tecnología superior que se libera del cuello de botella de von Neumann, que sobrevive a la Ley de Moore y marca el comienzo de nuevos avances en el aprendizaje profundo, viene con su propio conjunto de problemas.

"Los problemas son diferentes tanto en inferencia como en capacitación", dijo a DCD Wilfried Haensch, miembro del personal distinguido de IBM Research, Tecnologías de IA analógica.

Comencemos con el espacio de inferencia comparativamente más fácil, y supongamos que aún ejecuta cargas de trabajo de entrenamiento en una GPU. "Entonces, el truco aquí es, ¿cómo se obtienen los pesos del entorno de la GPU en la matriz analógica, para que aún tenga la precisión suficiente en la clasificación?", Dijo Haensch.

"Esto suena muy fácil si lo miras en una diapositiva de PowerPoint. Pero no lo es. Porque si copias números de coma flotante de un dispositivo digital a otro, mantienes la precisión: lo único que haces es copiar una cadena de ceros y unos".

Problemas de precisión analógica

IBM_in-memory.original.png

Al copiar un número de un entorno digital a un entorno analógico, las cosas se vuelven un poco más complicadas, según Haensch: "Ahora lo que tienes que hacer es tomar las cadenas de ceros y unos, e imprimirlo en una cantidad física, como una resistencia. Pero debido a que la resistencia es solo una cantidad física, nunca podrá copiar exactamente el número de coma flotante. La física es precisa pero no precisa, por lo que obtienes una resistencia precisa, pero puede que no sea la que deseas, quizás esté un poco fuera de lugar”.

Este problema de precisión de inferencia es algo que el laboratorio de Almaden de IBM espera superar, ejecutando pruebas en redes de memoria a largo plazo (LSTM), un enfoque complejo de aprendizaje profundo adecuado para tareas con correlación secuencial como reconocimiento de voz o texto, donde puede comprender una oración completa , en lugar de solo una palabra.

En un documento presentado en el Simposio VLSI de junio, Inferencia de redes de memoria a corto y largo plazo con precisión equivalente al software utilizando dispositivos de memoria de cambio de fase analógicos de 2.5M, Almaden "trata sobre cómo copiar los pesos en la red neuronal y mantener la precisión de inferencia ", Dijo Haensch.

El documento detalla cómo usar un algoritmo que permitió a los investigadores "copiar los pesos con la suficiente precisión, para que podamos mantener la precisión de la clasificación, como se esperaba del entrenamiento de coma flotante", dijo Haensch.

“Entonces este es un punto muy, muy importante. Nuestra filosofía es que primero nos enfocaremos en las aplicaciones de inferencia, porque son un poco más fáciles de manejar desde una perspectiva material. Pero si queremos tener éxito con esto, tenemos que encontrar una manera de llevar el modelo entrenado a la matriz analógica. Y este es un paso significativo para mostrar cómo se puede hacer esto”.

Para los dispositivos PCM de inferencia, IBM se ha "convencido de que este enfoque es factible y que no hay un obstáculo fundamental en el camino", dijo Haensch. "Para uso comercial, la inferencia probablemente esté a unos cinco o seis años".

¿Pueden los dispositivos analógicos entrenarse?

En los laboratorios de Zurich, los investigadores trabajaron para tratar de superar los desafíos inherentes con los dispositivos PCM para la capacitación de aprendizaje profundo.

"En el entrenamiento de aprendizaje profundo, hay básicamente tres fases", dijo Eleftheriou de Zurich a DCD. "Hay una pasada directa, que es similar a la inferencia, en la que no se hace hincapié en la precisión", donde se calculan los valores de las capas de salida a partir de los datos de entrada con pesos fijos dados, avanzando desde la primera capa hasta la última capa.

"Luego hay un paso hacia atrás con errores, nuevamente no se necesita una alta precisión", donde el cálculo se realiza desde la última capa, de vuelta a la primera capa, y nuevamente con pesos fijos, dijo.

La tercera parte es donde "necesita actualizar los pesos, cambiando así la fuerza de conexión entre la entrada y la salida de cada capa", dijo Eleftheriou. Es esta parte la que sigue siendo difícil, por lo que la solución en Zurich es ejecutar las dos primeras fases de entrenamiento, pases hacia adelante y hacia atrás, en el PCM. Sin embargo, las actualizaciones de peso se acumulan en un procesador estándar von Neumann antes de que las actualizaciones se transfieran de forma esporádica a los dispositivos PCM. "Esta es, en pocas palabras, toda la idea".

Según Haensch: "Ese es un trampolín muy importante, porque nos permite crear la capacidad de entrenar sin presionar demasiado las propiedades del material".

Comercialización

Haensch cree que ir más allá de ese peldaño, así como avanzar hacia la comercialización, podría tener un profundo impacto en el futuro del aprendizaje profundo.

"Si nos fijamos en el desarrollo de las redes neuronales hoy, realmente está impulsado por las propiedades de las GPU", dijo. “Y las GPU requieren que tengas redes estrechas y profundas para un mejor aprendizaje; esta no es necesariamente la mejor solución. Los arreglos analógicos le permiten volver a redes poco profundas con capas más anchas, y esto abrirá la posibilidad de rediseñar el aprendizaje profundo para la optimización del aprendizaje, porque ya no está limitado por las limitaciones de memoria de las GPU”.

Cindy Goldberg, directora de programas de AI Hardware Research en IBM, estuvo de acuerdo: “No se trata solo de ver las cargas de trabajo exactas de hoy, sino de cómo estas cargas de trabajo de AI evolucionan de estas aplicaciones muy estrechas a cargas de trabajo de AI mucho más amplias, dinámicas y en evolución. .

"Esto es lo que informa el enfoque de desarrollo de estos aceleradores, no se trata solo de tener el mejor widget de hoy que está desactualizado en seis meses, sino de realmente anticipar cómo estas cargas de trabajo están evolucionando y cambiando a largo plazo".