Entrevista: Nvidia sobre las demandas de la carga de trabajo de la IA y el rendimiento del almacenamiento

Las cargas de trabajo de inteligencia artificial (IA) son nuevas y diferentes a las que hemos visto anteriormente en la empresa. Van desde un entrenamiento con un uso intensivo de recursos informáticos hasta inferencias diarias y referencias RAG que apenas afectan a la entrada/salida (E/S) de la CPU y el almacenamiento. Por lo tanto, en los distintos tipos de cargas de trabajo de IA, el perfil de E/S y los impactos en el almacenamiento pueden variar drásticamente. En esta segunda parte de una serie de dos, hablamos con Charlie Boyle, vicepresidente de Nvidia y gerente general de DGX Systems, sobre las demandas de los puntos de control en IA, las funciones de los marcadores de rendimiento de almacenamiento, como el rendimiento y la velocidad de acceso, en el trabajo de IA, y los atributos de almacenamiento necesarios para diferentes tipos de cargas de trabajo de IA. Retomamos la discusión después de la charla en el primer artículo sobre los desafíos clave en los datos para proyectos de IA, consejos prácticos para los clientes que se embarcan en la IA y las diferencias entre los tipos de cargas de trabajo de IA, como el entrenamiento, el ajuste, la inferencia, RAG y los puntos de control. Antony Adshead: ¿Existe algún tipo de relación estándar entre las escrituras de puntos de control y el volumen del modelo de entrenamiento? Charlie Boyle: Sí, la hay. A medida que interactuamos con los clientes en sus propios modelos y entrenamiento, tenemos promedios, porque sabemos cuánto tiempo debería llevar el tamaño de un modelo y la cantidad de elementos de cómputo que tiene. Y luego hablamos con los clientes sobre la tolerancia al riesgo. Algunos de nuestros investigadores realizan puntos de control cada hora. Otros, una vez al día. Depende de lo que esperen y de la cantidad de tiempo que lleve realizarlos. Y también está la cantidad de tiempo que lleva recuperarse de un punto de control. Porque podría decir: «Está bien, he estado realizando puntos de control una vez al día. Y en algún momento entre el día cuatro y el día cinco, tuve un problema». Es posible que no sepa que tuvo un problema hasta el día seis porque el trabajo no se detuvo, pero está mirando los resultados y algo es extraño. Entonces, en realidad, tiene que retroceder un par de días hasta ese punto. Entonces, se trata de «¿Qué tan rápido noto que hay un problema en comparación con qué tan lejos quiero retroceder en un punto de control?». Pero tenemos datos porque hacemos estas ejecuciones de entrenamiento masivas, desde una ejecución de entrenamiento que dura unos minutos hasta algo que dura casi un año. Tenemos todos esos datos y podemos ayudar a los clientes a lograr ese equilibrio adecuado. Hay tecnologías emergentes en las que estamos trabajando con nuestros socios de almacenamiento para descubrir formas de ejecutar la escritura, pero también para mantener el cómputo en funcionamiento mientras la E/S se distribuye de regreso a los sistemas de almacenamiento. Hay mucha tecnología emergente en ese espacio. Adshead: Hemos hablado sobre el entrenamiento y usted ha hablado sobre la necesidad de un almacenamiento rápido. ¿Cuál es el papel del rendimiento junto con la velocidad? Boyle: Entonces, el rendimiento y la velocidad en el lado del entrenamiento están estrechamente relacionados porque debe poder cargar rápidamente. El rendimiento y el rendimiento general de lectura son casi la misma métrica para nosotros. También está la latencia, que puede acumularse según lo que esté tratando de hacer. Si necesito recuperar un elemento de mi almacén de datos, entonces mi latencia es solo eso. Pero con la IA moderna, especialmente con RAG, si le estás haciendo una pregunta a un modelo y este entiende tu pregunta pero no tiene inherentemente los datos para responderla, tiene que obtenerlos. La pregunta podría ser el clima o la cotización de acciones o algo así. Entonces, sabe cómo responder a una cotización de acciones y sabe que la fuente de verdad para la cotización de acciones son los datos de la SEC o NASDAQ. Pero en un sentido empresarial, podría ser el número de teléfono de la oficina de soporte técnico de Las Vegas. Esa debería ser una transacción muy rápida. Pero, ¿ese dato está en un documento? ¿Está en un sitio web? ¿Está almacenado como una celda de datos? Debería poder ir, boom, súper rápido y con una latencia que sea súper baja. Pero si es una respuesta más compleja, entonces la latencia se acumula porque tiene que recuperar ese documento, analizarlo y luego enviarlo de vuelta. Es un pequeño fragmento de información, pero podría tener una latencia alta. Podría tener dos o tres capas de latencia. Por eso, para GenAI, la latencia es lo que realmente esperas obtener de ella. ¿Estoy haciendo una pregunta muy compleja y no tengo problemas en esperar un segundo? ¿Estoy preguntando algo que creo que debería ser simple? Si espero demasiado, me pregunto: ¿está funcionando el modelo de IA? ¿Necesito presionar actualizar? Ese tipo de cosas. Y luego, relacionado con la latencia, está el modo de IA que estás buscando. Si le hago una pregunta con mi voz y espero una respuesta de voz, tiene que interpretar mi voz, convertirla en texto, convertirla en una consulta, encontrar la información, convertir esa información nuevamente en texto y tener una lectura de texto a voz para mí. Si es una respuesta corta, como «¿Cuál es la temperatura en Las Vegas?», no quiero esperar medio segundo. Pero si hago una pregunta más compleja de la que espero un par de oraciones, puedo estar dispuesto a esperar medio segundo para que comience a hablarme. Y luego está la cuestión de si mi latencia puede mantener el ritmo de enviar suficiente texto al texto a voz para que suene como una respuesta natural. Adshead: ¿Cuál es la diferencia en términos de E/S de almacenamiento entre el entrenamiento y la inferencia? Boyle: Si estás construyendo un nuevo sistema de almacenamiento, son muy similares. Si estás haciendo un sistema de entrenamiento de IA, necesitas un dispositivo de almacenamiento rápido moderno o algún sistema. Necesitas alto rendimiento, baja latencia, alta eficiencia energética. En el lado de la inferencia, necesitas esa misma estructura para la primera parte de la inferencia. Pero también necesitas asegurarte de que te estás conectando rápidamente a tus almacenes de datos empresariales para poder recuperar esa pieza de información. Entonces, ¿ese almacenamiento es lo suficientemente rápido? E igualmente importante, ¿ese almacenamiento está conectado lo suficientemente rápido? Porque ese almacenamiento puede estar conectado muy rápidamente a su sistema de TI más cercano, pero podría estar en un centro de datos diferente, un colo diferente de mi sistema de inferencia. Un cliente podría decir: «Tengo el almacenamiento más rápido aquí y compré el almacenamiento más rápido para mi sistema de IA». Luego se dan cuenta de que están en dos edificios diferentes y que el departamento de TI tiene una conexión de un gigabit entre ellos que también se encarga de Exchange y todo lo demás. Por lo tanto, la red es casi tan importante como el almacenamiento para garantizar que la ingeniería esté bien diseñada y que realmente se pueda obtener la información. Y eso puede significar movimiento de datos, copia de datos, inversión en nuevas tecnologías, pero también inversión para asegurarse de que la red esté ahí.

Todo lo que necesitas saber sobre tecnología

Entrevista: Nvidia sobre las demandas de la carga de trabajo de la IA y el rendimiento del almacenamiento

Deja una respuesta Cancelar la respuesta

Entrevista: Nvidia sobre las demandas de la carga de trabajo de la IA y el rendimiento del almacenamiento

El próximo controlador de Nvidia hace que aún más GPU sean “abiertas”, de una manera específica y peculiar

Grupo pro-hutí ataca a organizaciones de ayuda en Yemen con software espía para Android

Deja una respuesta Cancelar la respuesta