Las redes neuronales artificiales (algoritmos inspirados en cerebros biológicos) son el núcleo de la inteligencia artificial moderna, detrás de los chatbots y los generadores de imágenes. Pero con sus muchas neuronas, pueden ser cajas negras, cuyo funcionamiento interno es ininterpretable para los usuarios. Los investigadores han creado ahora una forma fundamentalmente nueva de hacer redes neuronales que en algunos aspectos supera a los sistemas tradicionales. Estas nuevas redes son más interpretables y también más precisas, dicen los defensores, incluso cuando son más pequeñas. Sus desarrolladores dicen que la forma en que aprenden a representar datos físicos de forma concisa podría ayudar a los científicos a descubrir nuevas leyes de la naturaleza. «Es genial ver que hay una nueva arquitectura sobre la mesa». —Brice Ménard, Universidad Johns Hopkins Durante la última década o más, los ingenieros han ajustado principalmente los diseños de redes neuronales a través de prueba y error, dice Brice Ménard, un físico de la Universidad Johns Hopkins que estudia cómo funcionan las redes neuronales pero que no participó en el nuevo trabajo, que se publicó en arXiv en abril. “Es fantástico ver que hay una nueva arquitectura sobre la mesa”, afirma, especialmente una diseñada a partir de principios básicos. Una forma de pensar en las redes neuronales es por analogía con las neuronas, o nodos, y las sinapsis, o conexiones entre esos nodos. En las redes neuronales tradicionales, llamadas perceptrones multicapa (MLP), cada sinapsis aprende un peso, un número que determina qué tan fuerte es la conexión entre esas dos neuronas. Las neuronas están dispuestas en capas, de modo que una neurona de una capa toma señales de entrada de las neuronas de la capa anterior, ponderadas por la fuerza de su conexión sináptica. Luego, cada neurona aplica una función simple a la suma total de sus entradas, llamada función de activación. En las redes neuronales tradicionales, a veces llamadas perceptrones multicapa [left]Cada sinapsis aprende un número llamado peso, y cada neurona aplica una función simple a la suma de sus entradas. En la nueva arquitectura de Kolmogorov-Arnold [right]En la nueva arquitectura, las sinapsis desempeñan un papel más complejo. En lugar de aprender simplemente lo fuerte que es la conexión entre dos neuronas, aprenden la naturaleza completa de esa conexión: la función que asigna la entrada a la salida. A diferencia de la función de activación utilizada por las neuronas en la arquitectura tradicional, esta función podría ser más compleja (de hecho, una «spline» o combinación de varias funciones) y es diferente en cada caso. Las neuronas, por otro lado, se vuelven más simples: simplemente suman las salidas de todas sus sinapsis anteriores. Las nuevas redes se denominan redes de Kolmogorov-Arnold (KAN), en honor a dos matemáticos que estudiaron cómo se podían combinar las funciones. La idea es que las KAN proporcionarían una mayor flexibilidad al aprender a representar datos, al tiempo que utilizan menos parámetros aprendidos. «Es como una vida extraterrestre que mira las cosas desde una perspectiva diferente, pero que también es comprensible para los humanos». —Ziming Liu, Instituto Tecnológico de MassachusettsLos investigadores probaron sus KAN en tareas científicas relativamente simples. En algunos experimentos, tomaron leyes físicas simples, como la velocidad con la que dos objetos de velocidad relativista se cruzan. Usaron estas ecuaciones para generar puntos de datos de entrada-salida, luego, para cada función física, entrenaron una red con algunos de los datos y la probaron con el resto. Descubrieron que aumentar el tamaño de las KAN mejora su rendimiento a un ritmo más rápido que aumentar el tamaño de las MLP. Al resolver ecuaciones diferenciales parciales, una KAN fue 100 veces más precisa que una MLP que tenía 100 veces más parámetros. En otro experimento, entrenaron redes para predecir un atributo de los nudos topológicos, llamado su firma, basándose en otros atributos de los nudos. Un MLP logró una precisión de prueba del 78 por ciento utilizando alrededor de 300.000 parámetros, mientras que un KAN logró una precisión de prueba del 81,6 por ciento utilizando solo unos 200 parámetros. Además, los investigadores pudieron mapear visualmente los KAN y observar las formas de las funciones de activación, así como la importancia de cada conexión. Ya sea de forma manual o automática, pudieron podar las conexiones débiles y reemplazar algunas funciones de activación por otras más simples, como funciones senoidales o exponenciales. Luego pudieron resumir todo el KAN en una función intuitiva de una línea (incluyendo todas las funciones de activación de los componentes), en algunos casos reconstruyendo perfectamente la función física que creó el conjunto de datos. «En el futuro, esperamos que pueda ser una herramienta útil para la investigación científica cotidiana», dice Ziming Liu, un científico informático del Instituto Tecnológico de Massachusetts y el primer autor del artículo. «Dado un conjunto de datos que no sabemos cómo interpretar, simplemente lo arrojamos a un KAN, y puede generar alguna hipótesis para usted. Simplemente mira el cerebro [the KAN diagram] «Y puedes incluso realizar una cirugía en eso si quieres». Podrías obtener una función ordenada. «Es como una vida extraterrestre que mira las cosas desde una perspectiva diferente pero también es comprensible para los humanos». Docenas de artículos ya han citado la preimpresión de KAN. «Me pareció muy emocionante el momento en que lo vi», dice Alexander Bodner, un estudiante de pregrado de ciencias de la computación en la Universidad de San Andrés, en Argentina. En una semana, él y tres compañeros de clase habían combinado KAN con redes neuronales convolucionales, o CNN, una arquitectura popular para procesar imágenes. Probaron sus KAN convolucionales en su capacidad para categorizar dígitos escritos a mano o prendas de vestir. La mejor aproximadamente igualó el rendimiento de una CNN tradicional (99 por ciento de precisión para ambas redes en dígitos, 90 por ciento para ambas en ropa) pero usando aproximadamente un 60 por ciento menos de parámetros. Los conjuntos de datos eran simples, pero Bodner dice que otros equipos con más poder de cómputo han comenzado a escalar las redes. Otras personas están combinando las KAN con transformadores, una arquitectura popular en los modelos de lenguajes grandes. Una desventaja de las KAN es que requieren más tiempo para entrenarse por parámetro, en parte porque no pueden aprovechar las GPU. Pero necesitan menos parámetros. Liu señala que incluso si las KAN no reemplazan a las CNN gigantes y a los transformadores para procesar imágenes y lenguaje, el tiempo de entrenamiento no será un problema en la escala más pequeña de muchos problemas de física. Está buscando formas para que los expertos inserten su conocimiento previo en las KAN (eligiendo manualmente funciones de activación, por ejemplo) y extraigan fácilmente el conocimiento de ellas utilizando una interfaz simple. Algún día, dice, las KAN podrían ayudar a los físicos a descubrir superconductores de alta temperatura o formas de controlar la fusión nuclear. Artículos de su sitio Artículos relacionados en la Web