Etiqueta: aceleradores de ia

Cerebras, la empresa de supercomputadoras de inteligencia artificial de Sunnyvale, California, dice que su próxima generación de chips de inteligencia artificial en escala de oblea puede duplicar el rendimiento de la generación anterior y consumir la misma cantidad de energía. El Wafer Scale Engine 3 (WSE-3) contiene 4 billones de transistores, un aumento de más del 50 por ciento con respecto a la generación anterior gracias al uso de tecnología de fabricación de chips más nueva. La compañía dice que utilizará el WSE-3 en una nueva generación de computadoras con inteligencia artificial, que ahora se están instalando en un centro de datos en Dallas para formar una supercomputadora capaz de realizar 8 exaflops (8 mil millones de billones de operaciones de punto flotante por segundo). Por otra parte, Cerebras ha firmado un acuerdo de desarrollo conjunto con Qualcomm que tiene como objetivo aumentar diez veces una métrica de precio y rendimiento para la inferencia de IA. La compañía dice que el CS-3 puede entrenar modelos de redes neuronales con un tamaño de hasta 24 billones de parámetros, más de 10 veces el tamaño de los LLM más grandes de la actualidad. Con WSE-3, Cerebras puede mantener su pretensión de producir el chip individual más grande del mundo. De forma cuadrada y 21,5 centímetros de lado, utiliza casi una oblea entera de silicio de 300 milímetros para fabricar un chip. Los equipos de fabricación de chips suelen limitarse a producir matrices de silicio de no más de unos 800 milímetros cuadrados. Los fabricantes de chips han comenzado a escapar de ese límite mediante el uso de integración 3D y otras tecnologías de embalaje avanzadas. Integración 3D y otras tecnologías de embalaje avanzadas para combinar múltiples matrices. Pero incluso en estos sistemas, el número de transistores es de decenas de miles de millones. Como es habitual, un chip tan grande viene con algunos superlativos alucinantes. Transistores 4 billones de milímetros cuadrados de silicio 46.225 núcleos de IA 900.000 cálculos de IA 125 petaflops Memoria en el chip 44 gigabytes Ancho de banda de la memoria 21 petabytes Ancho de banda de la estructura de red 214 petabits Puede ver el efecto de la Ley de Moore en la sucesión de chips WSE. El primero, que debutó en 2019, se fabricó utilizando la tecnología de 16 nanómetros de TSMC. Para WSE-2, que llegó en 2021, Cerebras pasó al proceso de 7 nm de TSMC. WSE-3 está construido con la tecnología de 5 nm del gigante de la fundición. El número de transistores se ha más que triplicado desde el primer megachip. Mientras tanto, el uso que se les da también ha cambiado. Por ejemplo, el número de núcleos de IA en el chip se ha estabilizado significativamente, al igual que la cantidad de memoria y el ancho de banda interno. Sin embargo, la mejora del rendimiento en términos de operaciones de punto flotante por segundo (flops) ha superado todas las demás medidas. CS-3 y Condor Galaxy 3 La computadora construida alrededor del nuevo chip AI, el CS-3, está diseñada para entrenar nuevas generaciones de modelos de lenguaje gigantes, 10 veces más grandes que el GPT-4 de OpenAI y el Gemini de Google. La compañía dice que el CS-3 puede entrenar modelos de redes neuronales de hasta 24 billones de parámetros de tamaño, más de 10 veces el tamaño de los LLM más grandes de la actualidad, sin recurrir a un conjunto de trucos de software que necesitan otras computadoras. Según Cerebras, eso significa que el software necesario para entrenar un modelo de mil millones de parámetros en el CS-3 es tan sencillo como entrenar un modelo de mil millones de parámetros en GPU. Se pueden combinar hasta 2.048 sistemas, una configuración que permitiría entrenar el popular LLM Llama 70B desde cero en solo un día. Sin embargo, no se está preparando nada tan grande, dice la compañía. La primera supercomputadora basada en CS-3, Condor Galaxy 3 en Dallas, estará compuesta por 64 CS-3. Al igual que sus sistemas hermanos basados en CS-2, el G42 de Abu Dhabi es propietario del sistema. Junto con Condor Galaxy 1 y 2, esto forma una red de 16 exaflops. «La red Condor Galaxy existente ha entrenado algunos de los modelos de código abierto líderes en la industria, con decenas de miles de descargas», dijo Kiril Evtimov, CTO del grupo G42 en un comunicado de prensa. «Al duplicar la capacidad a 16 exaflops, esperamos ver la próxima ola de innovación que las supercomputadoras Condor Galaxy pueden permitir». Un acuerdo con Qualcomm Si bien las computadoras Cerebras están diseñadas para capacitación, el director ejecutivo de Cerebras, Andrew Feldman, dice que la inferencia, la ejecución de modelos de redes neuronales, es el límite real para la adopción de la IA. Según estimaciones de Cerebras, si cada persona en el planeta usara ChatGPT, costaría 1 billón de dólares al año, sin mencionar una cantidad abrumadora de energía procedente de combustibles fósiles. (Los costos operativos son proporcionales al tamaño del modelo de red neuronal y la cantidad de usuarios). Por eso, Cerebras y Qualcomm se han asociado con el objetivo de reducir el costo de la inferencia en un factor de 10. Cerebras dice que su solución implicará aplicar Técnicas de redes neuronales como la compresión de datos de peso y la escasez: la poda de conexiones innecesarias. Las redes entrenadas por Cerebras luego se ejecutarían eficientemente en el nuevo chip de inferencia de Qualcomm, el AI 100 Ultra, afirma la compañía. Artículos de su sitioArtículos relacionados en la Web

Source link

CES 2024: Neuchips demuestra la actualización de IA de bajo consumo para PC

por Javier Javier Rodriguez

el enero 10, 2024

en Tecnolgia

¿Qué pasaría si cualquier PC de escritorio pudiera convertirse en una bestia de inferencia de IA con una sola actualización? ¿Y si esa bestia transformada todavía bebiera energía como si estuviera disfrutando de un martini? Esa es la idea propuesta por Neuchips, una startup taiwanesa fundada en 2019 y conocida por ofrecer una eficiencia de IA de primer nivel. Llegó a CES Unveiled 2024, el programa de medios previo al juego antes del evento principal, con una tarjeta adicional PCIe que puede actualizar las capacidades de inteligencia artificial de una computadora de escritorio típica y al mismo tiempo agregar solo 55 vatios al presupuesto de energía de la PC. No es sólo un concepto. La tarjeta se conectó a una computadora de escritorio en la sala de exhibición y ofreció una conversación fuera de línea en tiempo real con un chatbot impulsado por el popular modelo de lenguaje grande Llama 2 7B de Meta (Neuchips dice que la tarjeta también ejecutará Llama 2 13B). La tarjeta, el acelerador Evo PCIe, se basa en el chip acelerador Raptor Gen AI de la compañía. El chip Raptor ofrece “hasta 200 tera operaciones (TOPS) por segundo” y la compañía dice que está optimizado para modelos basados en transformadores. La tarjeta que Neuchips demostró tenía el chip Raptor, pero un solo chip no es la forma final de la tarjeta. Ken Lau, director ejecutivo de Neuchips, un veterano de Intel con 26 años de experiencia, dice que Raptor se puede utilizar para diseñar tarjetas con distintos números de chips integrados. «El chip es realmente escalable», afirma Lau. “Así que empezamos con un chip. Y luego tenemos cuatro fichas. Y luego ocho fichas”. Cada chip proporciona hasta 200 billones de operaciones por segundo (TOPS), según el comunicado de prensa de Neuchip. La tarjeta también lleva 32 GB de memoria LPDDR5 y alcanza 1,6 terabytes de ancho de banda de memoria. El ancho de banda de la memoria es importante, porque a menudo es un factor cuando se maneja la inferencia de IA en una sola PC. Neuchips también quiere brindar a los propietarios las herramientas necesarias para usar la tarjeta de manera efectiva, aunque faltan muchos meses para su lanzamiento, los detalles aquí siguen siendo un poco escasos. . Un representante de Neuchips dijo que la compañía tiene un software compilador y proporcionará un controlador. La demostración que vi tenía una interfaz personalizada para interactuar con la tarjeta Neuchips modelo Llama2-7B que se estaba ejecutando, pero parecía básica. Un enfoque en la eficiencia Ya existe hardware que cualquiera puede conectar a la ranura PCie de una computadora de escritorio para mejorar en gran medida el rendimiento de la IA. Se llama GPU y Nvidia tiene un dominio absoluto en el mercado. Sería difícil competir cara a cara con Nvidia en rendimiento. De hecho, Nvidia anunció nuevas tarjetas centradas en la IA en CES 2024; el RTX 4080 Super, que se venderá por 999 dólares a partir del 31 de enero, ofrece un rendimiento de IA de hasta 836 TOP. Sin embargo, Neuchips ve una oportunidad. «Estamos centrados en la eficiencia energética», afirma Lau. “Y sobre el manejo de los diferentes modelos que existen”. Las tarjetas gráficas modernas son potentes, pero también consumen mucha energía. El RTX 4080 Super puede consumir hasta 320 vatios de potencia y normalmente requerirá una computadora con una fuente de alimentación que pueda entregar al menos 750 vatios. El acelerador Evo PCIe de Neuchips, por el contrario, consume sólo 55 vatios de energía. De hecho, consume tan poca energía que la tarjeta que Neuchips demostró en CES no tenía una conexión de alimentación PCIe externa. Estos conectores son imprescindibles para la mayoría de las tarjetas GPU. También me dijeron que la tarjeta final, que debería enviarse en la segunda mitad de 2024, tendrá aproximadamente la mitad del tamaño de la tarjeta mostrada en el CES. Ese es un detalle importante, ya que la tarjeta que vi era tan grande como la mayoría de las tarjetas GPU Nvidia actuales y demasiado grande para caber en la mayoría de las computadoras de escritorio de factor de forma pequeño. Una tarjeta más pequeña haría que el acelerador Evo PCIe fuera utilizable en una amplia gama de hardware de PC moderno. El acelerador de Neuchips, aunque quizás la tarjeta aceleradora de IA de más alto perfil en CES 2024, no estuvo solo en la feria. Varias empresas emergentes llegaron con sus propios aceleradores de inteligencia artificial con características únicas. Panmnesia ganó un Premio a la Innovación CES por un acelerador de IA que incluye una interfaz Compute eXpress Link para acceder a enormes cantidades de memoria. Otras empresas con aceleradores de IA incluyen DeepX y MemryX. Intel y AMD también participan en esto; cada uno ofrece un acelerador de IA en su última arquitectura de CPU. No cometer errores. Nvidia sigue siendo el gorila de las 800 libras en este ámbito, y eso no va a cambiar de la noche a la mañana. Aun así, los nuevos aceleradores de IA como Raptor de Neuchips y la tarjeta Evo PCIe parecen estar listos para ofrecer nuevas opciones a los desarrolladores que no se preocupan por los gráficos o que necesitan una mayor eficiencia energética mientras ejecutan la inferencia de IA. El lanzamiento completo del acelerador Evo PCI de Neuchips está previsto para la segunda mitad de 2024. El precio aún no se ha anunciado. Artículos de su sitioArtículos relacionados en la Web

Source link

Todo lo que necesitas saber sobre tecnología

Etiqueta: aceleradores de ia

Cerebras WSE-3: Superchip de tercera generación para IA

CES 2024: Neuchips demuestra la actualización de IA de bajo consumo para PC