IBM ha presentado un procesador más potente para sus famosos sistemas mainframe, prometiendo una aceleración de IA en chip mejorada para la inferencia, además de una unidad de procesamiento de datos (DPU) integrada para impulsar el manejo de IO. También hay un acelerador de IA independiente destinado a respaldar la inferencia a mayor escala. Anunciado en la conferencia Hot Chips 2024 en Palo Alto, se espera que el procesador Telum II aporte mejoras significativas en el rendimiento del mainframe, según Big Blue. La compañía también presentó un avance del acelerador de IA Spyre y dijo que espera que ambos chips estén disponibles con los sistemas IBM Z de próxima generación que llegarán en la primera mitad de 2025. Si se puede creer a IBM, aproximadamente el 70 por ciento de todas las transacciones del mundo por valor se realizan a través de sus mainframes, y dijo que los desarrollos que está mostrando en Hot Chips le permitirán llevar la IA generativa a estas cargas de trabajo de misión crítica. Telum II será un chip de ocho núcleos como su predecesor, pero en el nuevo silicio, estos funcionan a una velocidad de reloj más alta de 5,5 GHz. Hay diez cachés de nivel 2 de 36 MB; uno para cada núcleo, uno para la DPU y el décimo como caché general del chip. Con el aumento de la L3 virtual y la L4 virtual a 360 MB y 2,88 GB respectivamente, esto representa un aumento del 40 por ciento en el tamaño de la caché, dijo IBM. El primer procesador Telum trajo inferencia de IA incorporada al z16 cuando se lanzó en 2022. Es capaz de ejecutar verificaciones de detección de fraude en tiempo real contra transacciones financieras mientras se procesan. Big Blue dice que ha mejorado significativamente las funciones del acelerador de IA en el procesador Telum II, alcanzando 24 billones de operaciones por segundo (TOPS). Pero, como The Register ha explicado anteriormente, TOPS puede ser una métrica engañosa. Se ha agregado soporte para INT8 como tipo de datos, pero el propio Telum II está diseñado para permitir que los tiempos de ejecución del modelo funcionen en paralelo con las cargas de trabajo empresariales más exigentes. La DPU en chip se ha añadido para ayudar a satisfacer las demandas cada vez mayores de cargas de trabajo, en particular con la vista puesta en las futuras cargas de trabajo de IA y el próximo acelerador Spyre para los sistemas Z. Según el equipo de Armonk, cada DPU incluye cuatro clústeres de procesamiento, cada uno con ocho microcontroladores programables y un acelerador de E/S que gestiona esos clústeres de procesamiento más el subsistema de E/S para dos dominios de cajón de E/S. La DPU también cuenta con una caché L1 independiente y un gestor de solicitudes para realizar un seguimiento de las solicitudes pendientes. La DPU se sitúa entre la estructura del procesador principal y la estructura PCIe. El objetivo de conectarla directamente a la estructura de esta manera es reducir en gran medida la sobrecarga de las transferencias de datos al tiempo que se mejora el rendimiento y la eficiencia energética. IBM dijo que, como configuración máxima, los futuros sistemas Z podrían tener hasta 32 procesadores Telum II y 12 jaulas de E/S, donde cada jaula tiene hasta 16 ranuras PCIe, lo que permite que el sistema admita un total de hasta 192 tarjetas PCIe, ampliando enormemente la capacidad de E/S. El acelerador Spyre contendrá 32 núcleos con una arquitectura similar al acelerador de IA integrado en el propio chip Telum II. Un IBM Z podría configurarse con múltiples aceleradores Spyre que se instalarían a través de PCIe para escalar la aceleración de IA según sea necesario. Un grupo de ocho tarjetas agregaría 256 núcleos aceleradores a un solo sistema IBM Z, por ejemplo. Tanto Telum II como el acelerador Spyre están diseñados para admitir lo que IBM denomina IA de conjunto, que describe como el uso de múltiples modelos de IA para mejorar el rendimiento y la precisión de las predicciones en comparación con los modelos individuales. «El procesador Telum II y el acelerador Spyre están diseñados para brindar soluciones informáticas empresariales de alto rendimiento, seguras y más eficientes energéticamente», dijo Tina Tarquinio, vicepresidenta de gestión de productos de Big Blue para IBM Z y LinuxONE, en un comentario proporcionado. «Después de años de desarrollo, estas innovaciones se introducirán en nuestra plataforma IBM Z de próxima generación para que los clientes puedan aprovechar los LLM y la IA generativa a escala», agregó. Big Blue busca ir más allá de la inferencia para realizar ajustes finos e incluso potencialmente entrenar modelos también en sus mainframes. Esto permitiría a los clientes, como bancos y otras empresas que desean mantener los datos guardados de forma segura en sus propias instalaciones, entrenar e implementar modelos completamente dentro de su organización, afirmó. Tanto el Telum II como el Spyre Accelerator serán fabricados para IBM por Samsung utilizando un nodo de proceso de 5 nm. ®