Todo lo que necesitas saber sobre tecnología

Etiqueta: y

Samsung anuncia la producción en masa de la memoria V-NAND QLC de novena generación

Samsung anuncia la producción en masa de la memoria V-NAND QLC de novena generación

Aunque la mayoría de la gente conoce a Samsung por sus teléfonos y tabletas, el gigante tecnológico surcoreano es mucho más que sus dispositivos inteligentes. Dicho esto, Samsung anunció recientemente que ha comenzado la producción en masa de su NAND vertical (V-NAND) de novena generación de celdas de cuatro niveles (QLC) de un terabit (Tb). Samsung dice que planea expandir las aplicaciones de la V-NAND QLC de novena generación a través de productos de consumo de marca y, eventualmente, extenderse al almacenamiento flash universal (UFS) móvil, así como a PC y SSD de servidor para soluciones de nube privadas y empresariales. Samsung dice que ha desarrollado la V-NAND QLC de novena generación utilizando una variedad de sus procesos característicos, incluida su tecnología Channel Hole Etching para lograr el mayor recuento de capas en la industria, la tecnología Designed Mold que ajusta el espaciado de las líneas de palabras y la tecnología Predictive Program que anticipa y controla los cambios de estado de las celdas para minimizar las acciones innecesarias. Samsung afirma que la V-NAND QLC de novena generación ha duplicado el rendimiento de escritura y mejorado la velocidad de entrada/salida de datos en un 60 % gracias a los avances. SungHoi Hur, vicepresidente ejecutivo y director de productos y tecnología Flash de Samsung, comenta: El inicio de la exitosa producción en masa de la V-NAND QLC de novena generación solo cuatro meses después de la versión TLC nos permite ofrecer una línea completa de soluciones SSD avanzadas que abordan las necesidades de la era de la IA… A medida que el mercado de SSD empresariales muestra un rápido crecimiento con una mayor demanda de aplicaciones de IA, continuaremos consolidando nuestro liderazgo en el segmento a través de nuestra V-NAND QLC y TLC de novena generación. Fuente: Samsung

Blackwell, AMD Instinct y Untethered AI: primeros puntos de referencia

Blackwell, AMD Instinct y Untethered AI: primeros puntos de referencia

Aunque el dominio de las GPU de Nvidia para el entrenamiento de IA sigue siendo indiscutible, es posible que estemos viendo señales tempranas de que, en el ámbito de la inferencia de IA, la competencia está ganando terreno al gigante tecnológico, en particular en términos de eficiencia energética. Sin embargo, el rendimiento absoluto del nuevo chip Blackwell de Nvidia puede ser difícil de superar. Esta mañana, ML Commons publicó los resultados de su última competencia de inferencia de IA, ML Perf Inference v4.1. Esta ronda incluyó presentaciones por primera vez de equipos que utilizan aceleradores AMD Instinct, los últimos aceleradores Google Trillium, chips de la startup UntetherAI con sede en Toronto, así como una primera prueba del nuevo chip Blackwell de Nvidia. Otras dos empresas, Cerebras y FuriosaAI, anunciaron nuevos chips de inferencia pero no se presentaron a MLPerf. Al igual que un deporte olímpico, MLPerf tiene muchas categorías y subcategorías. La que vio la mayor cantidad de presentaciones fue la categoría «cerrada en el centro de datos». La categoría cerrada (a diferencia de la abierta) requiere que los participantes ejecuten inferencias en un modelo determinado tal como está, sin modificaciones significativas del software. La categoría de centro de datos prueba a los participantes en el procesamiento masivo de consultas, a diferencia de la categoría de borde, donde la minimización de la latencia es el foco. Dentro de cada categoría, hay 9 puntos de referencia diferentes, para diferentes tipos de tareas de IA. Estos incluyen casos de uso populares como la generación de imágenes (piense en Midjourney) y LLM Q&A (piense en ChatGPT), así como tareas igualmente importantes pero menos anunciadas como la clasificación de imágenes, la detección de objetos y los motores de recomendación. Esta ronda de la competencia incluyó un nuevo punto de referencia, llamado Mixture of Experts. Esta es una tendencia creciente en la implementación de LLM, donde un modelo de lenguaje se divide en varios modelos de lenguaje independientes más pequeños, cada uno ajustado para una tarea particular, como una conversación regular, la resolución de problemas matemáticos y la asistencia con la codificación. El modelo puede dirigir cada consulta a un subconjunto apropiado de los modelos más pequeños, o «expertos». Este enfoque permite un menor uso de recursos por consulta, lo que permite un menor costo y un mayor rendimiento, dice Miroslav Hodak, presidente del grupo de trabajo de inferencia de MLPerf y miembro senior del personal técnico de AMD. Los ganadores en cada punto de referencia dentro del popular punto de referencia cerrado para centros de datos fueron aún los envíos basados ​​en las GPU H200 y los superchips GH200 de Nvidia, que combinan GPU y CPU en el mismo paquete. Sin embargo, un análisis más detallado de los resultados de rendimiento presenta un panorama más complejo. Algunos de los participantes utilizaron muchos chips aceleradores, mientras que otros utilizaron solo uno. Si normalizamos la cantidad de consultas por segundo que cada participante pudo manejar por la cantidad de aceleradores utilizados y mantenemos solo los envíos con mejor rendimiento para cada tipo de acelerador, surgen algunos detalles interesantes. (Es importante señalar que este enfoque ignora el papel de las CPU y las interconexiones). En función de cada acelerador, Blackwell de Nvidia supera a todas las iteraciones de chip anteriores en 2,5 veces en la tarea de preguntas y respuestas de LLM, la única prueba comparativa a la que se envió. El chip speedAI240 Preview de Untether AI tuvo un rendimiento casi a la par con el H200 en su única tarea de envío, reconocimiento de imágenes. El Trillium de Google tuvo un rendimiento un poco más de la mitad de bueno que el H100 y el H200 en la generación de imágenes, y el Instinct de AMD tuvo un rendimiento casi a la par con el H100 en la tarea de preguntas y respuestas de LLM. El poder de Blackwell Una de las razones del éxito de Nvidia Blackwell es su capacidad para ejecutar el LLM utilizando una precisión de punto flotante de 4 bits. Nvidia y sus rivales han estado reduciendo la cantidad de bits utilizados para representar datos en partes de modelos de transformadores como ChatGPT para acelerar el cálculo. Nvidia introdujo la matemática de 8 bits con el H100, y esta presentación marca la primera demostración de matemática de 4 bits en los puntos de referencia MLPerf. El mayor desafío con el uso de números de tan baja precisión es mantener la exactitud, dice el director de marketing de productos de Nvidia, Dave Salvator. Para mantener la alta precisión requerida para las presentaciones de MLPerf, el equipo de Nvidia tuvo que innovar significativamente en el software, dice. Otra contribución importante al éxito de Blackwell es que casi duplicó el ancho de banda de memoria, 8 terabytes/segundo, en comparación con los 4,8 terabytes/segundo de H200. Nvidia GB2800 Grace Blackwell SuperchipNvidia La presentación de Blackwell de Nvidia utilizó un solo chip, pero Salvator dice que está diseñado para conectarse en red y escalar, y funcionará mejor cuando se combine con las interconexiones NVLink de Nvidia. Las GPU Blackwell admiten hasta 18 conexiones NVLink de 100 gigabytes por segundo para un ancho de banda total de 1,8 terabytes por segundo, aproximadamente el doble del ancho de banda de interconexión de los H100. Salvatore argumenta que con el aumento del tamaño de los modelos de lenguaje grandes, incluso la inferencia requerirá plataformas con múltiples GPU para mantenerse al día con la demanda, y Blackwell está diseñado para esta eventualidad. «Blackwell es una plataforma», dice Salvator. Nvidia presentó su sistema basado en el chip Blackwell en la subcategoría de vista previa, lo que significa que aún no está a la venta, pero se espera que esté disponible antes del próximo lanzamiento de MLPerf, dentro de seis meses. Untether AI brilla en el uso de energía y en el borde Para cada punto de referencia, MLPerf también incluye una contraparte de medición de energía, que prueba sistemáticamente la energía del enchufe de pared que consume cada uno de los sistemas mientras realiza una tarea. El evento principal (la categoría de energía cerrada del centro de datos) tuvo solo dos participantes en esta ronda: Nvidia y Untether AI. Si bien Nvidia compitió en todos los puntos de referencia, Untether solo se presentó para el reconocimiento de imágenes. SubmitterAcceleratorNumber of acceleratorsQueries per secondWattsConsultas por segundo por vatio NVIDIA NVIDIA H200-SXM-141GB 8 480,131.00 5,013.79 95.76 UntetherAI UntetherAI speedAI240 Slim 6 309,752.00 985.52 314.30 La startup pudo lograr esta impresionante eficiencia al construir chips con un enfoque que llama computación en memoria. Los chips de UntetherAI están construidos como una cuadrícula de elementos de memoria con pequeños procesadores intercalados directamente adyacentes a ellos. Los procesadores están paralelizados, cada uno trabajando simultáneamente con los datos en las unidades de memoria cercanas, lo que reduce en gran medida la cantidad de tiempo y energía gastados en trasladar datos del modelo entre la memoria y los núcleos de cómputo. “Lo que vimos fue que el 90 por ciento de la energía que se necesita para realizar una carga de trabajo de IA consiste simplemente en trasladar los datos desde la DRAM a la memoria caché y al elemento de procesamiento”, afirma Robert Beachler, vicepresidente de productos de Untether AI. “Por lo tanto, lo que hizo Untether fue darle la vuelta a esa situación… En lugar de trasladar los datos al cómputo, voy a trasladar el cómputo a los datos”. Este enfoque resultó particularmente exitoso en otra subcategoría de MLPerf: edge-closed. Esta categoría está orientada a casos de uso más prácticos, como la inspección de máquinas en la planta de producción, la robótica de visión guiada y los vehículos autónomos, aplicaciones en las que el bajo consumo de energía y el procesamiento rápido son primordiales, afirma Beachler. RemitenteTipo de GPUNúmero de GPULatencia de flujo único (ms)Latencia de flujo múltiple (ms)Muestras/s Lenovo NVIDIA L4 2 0,39 0,75 25 600,00 Lenovo NVIDIA L40S 2 0,33 0,53 86 304,60 UntetherAI UntetherAI speedAI240 Preview 2 0,12 0,21 140 625,00 En la tarea de reconocimiento de imágenes, nuevamente la única para la que UntetherAI informó resultados, el chip speedAI240 Preview superó el rendimiento de latencia de NVIDIA L40S en 2,8x y su rendimiento (muestras por segundo) en 1,6x. La startup también presentó resultados de potencia en esta categoría, pero sus competidores acelerados por Nvidia no lo hicieron, por lo que es difícil hacer una comparación directa. Sin embargo, el consumo nominal de energía por chip para el chip speedAI240 Preview de UntetherAI es de 150 vatios, mientras que para los L40 de Nvidia es de 350 W, lo que lleva a una reducción de energía nominal de 2,3x con una latencia mejorada. Cerebras y Furiosa se saltan MLPerf pero anuncian nuevos chipsEl nuevo chip de Furiosa implementa la función matemática básica de la inferencia de IA, la multiplicación de matrices, de una manera diferente y más eficiente. Furiosa Ayer en la conferencia IEEE Hot Chips en Stanford, Cerebras presentó su propio servicio de inferencia. La compañía de Sunnyvale, California, fabrica chips gigantes, tan grandes como lo permite una oblea de silicio, evitando así las interconexiones entre chips y aumentando enormemente el ancho de banda de memoria de sus dispositivos, que se utilizan principalmente para entrenar redes neuronales masivas. Ahora ha actualizado su pila de software para utilizar su último ordenador CS3 para la inferencia. Aunque Cerebras no se presentó a MLPerf, la empresa afirma que su plataforma supera a un H100 por 7x y al chip de la startup de IA competidora Groq por 2x en tokens LLM generados por segundo. «Hoy estamos en la era de acceso telefónico de Gen AI», dice el CEO y cofundador de Cerebras, Andrew Feldman. «Y esto se debe a que existe una barrera de ancho de banda de memoria. Ya sea un H100 de Nvidia o MI 300 o TPU, todos usan la misma memoria fuera del chip y produce la misma limitación. Superamos esto, y lo hacemos porque somos de escala de oblea». Hot Chips también vio un anuncio de Furiosa, con sede en Seúl, presentando su chip de segunda generación, RNGD (pronunciado «renegado»). Lo que diferencia al chip de Furiosa es su arquitectura de Procesador de Contracción Tensorial (TCP). La operación básica en las cargas de trabajo de IA es la multiplicación de matrices, normalmente implementada como un primitivo en hardware. Sin embargo, el tamaño y la forma de las matrices, más generalmente conocidas como tensores, pueden variar ampliamente. RNGD implementa la multiplicación de esta versión más generalizada, los tensores, como un primitivo en su lugar. «Durante la inferencia, los tamaños de los lotes varían ampliamente, por lo que es importante utilizar el paralelismo inherente y la reutilización de datos de una forma de tensor dada», dijo el fundador y CEO de Furiosa, June Paik, en Hot Chips. Aunque no se presentó a MLPerf, Furiosa comparó el rendimiento de su chip RNGD en el punto de referencia de resumen LLM de MLPerf internamente. Funcionó a la par con el chip L40S orientado al borde de Nvidia mientras usaba solo 185 vatios de energía, en comparación con los 320 W del L40S. Y, dice Paik, el rendimiento mejorará con más optimizaciones de software. IBM también anunció su nuevo chip Spyre diseñado para cargas de trabajo de IA generativa empresarial, que estará disponible en el primer trimestre de 2025. Al menos, los compradores del mercado de chips de inferencia de IA no se aburrirán en el futuro cercano. Artículos de su sitio Artículos relacionados en la Web

Los procesadores de nube AWS Graviton4 ya están disponibles para el público en general

Los procesadores de nube AWS Graviton4 ya están disponibles para el público en general

Las instancias Amazon Elastic Compute Cloud R8g con chips Graviton4 de alto rendimiento, que han estado en vista previa desde noviembre pasado, ahora están abiertas para que las use cualquier persona que use AWS. AWS dice que se centró en la eficiencia energética en la creación de Graviton4, así como en la potencia y el rendimiento. Se puede acceder a las instancias R8g en las regiones de AWS del este de EE. UU. (Norte de Virginia), este de EE. UU. (Ohio), oeste de EE. UU. (Oregón) y Europa (Frankfurt). Las instancias Amazon EC2 R8g permiten elegir entre procesadores en la nube Las instancias Amazon EC2 impulsadas por Graviton son instancias en la nube de AWS para servidores y centros de datos. El procesador Graviton4 ofrece hasta un 30 % más de rendimiento que las instancias Amazon EC2 R7g basadas en Graviton3 de AWS, dijo AWS. Eso significa que los procesadores Graviton4 son especialmente buenos para cargas de trabajo que requieren mucha memoria, como bases de datos de alto rendimiento, cachés en memoria y análisis de big data en tiempo real. Si está buscando elegir entre procesadores para ejecutar cargas de trabajo en la nube en una instancia de Amazon EC2, probablemente esté considerando la arquitectura x86 de Intel y AMD o la familia Graviton (o instancias Mac). ¿Qué aporta Graviton4 a las instancias R8g de Amazon EC2? Amazon dice que las instancias R8g con Graviton4 han mejorado las instancias R7g y Graviton3 de varias maneras: Hasta un 30 % más de rendimiento para aplicaciones web. Hasta un 40 % más de rendimiento para bases de datos. Hasta un 45 % más de velocidad para aplicaciones Java de gran tamaño. Hasta 3 veces más CPU virtuales (hasta 48xl). 3 veces más memoria (hasta 1,5 TB). 75 % más de ancho de banda de memoria. 2 veces más caché L2 en comparación con las instancias R7g. Hasta 50 Gbps de ancho de banda de red en comparación con 30 Gbps. Hasta 40 Gbps de ancho de banda EBS en comparación con 20 Gbps EBS. Graviton4 (derecha) y Graviton3 (izquierda). Imagen: Las instancias AWS R8g aprovechan las funciones de red, almacenamiento y virtualización de CPU descargadas para un mejor rendimiento y seguridad. Las instancias R8g pueden alojar aplicaciones escritas en los principales lenguajes de programación, así como cargas de trabajo basadas en Linux. Por primera vez, las instancias Graviton ofrecerán dos tamaños de hardware (metal-24xl y metal-48xl) en las instancias R8g. VER: ¿Está buscando repasar la IA y el aprendizaje automático? AWS tiene recursos para eso. Más sobre la innovación La búsqueda de Graviton4 para mejorar la eficiencia energética AWS llama a Graviton4 el «procesador más eficiente energéticamente que hemos diseñado», según un comunicado de prensa. Las formas en que AWS aumentó la eficiencia de las cargas de trabajo intensivas en memoria utilizando EC2 incluyen la descarga de algunas funciones de red, almacenamiento y virtualización de CPU a hardware y software dedicados. ¿Amazon EC2 R8g es adecuado para su negocio? Además de elegir entre chips, como se mencionó anteriormente, las organizaciones que buscan alojar cargas de trabajo de alto rendimiento en la nube tienen varias opciones. Las instancias de computación en la nube EC2 de Amazon compiten con otros proveedores de infraestructura como servicio, como: Otros servicios de computación en la nube de Amazon pueden ser apropiados, dependiendo del tamaño de su carga de trabajo.

Funciona con WordPress & Tema de Anders Norén