En este podcast, analizamos la inteligencia artificial (IA) y el almacenamiento de datos con Grant Caley, director de soluciones de NetApp para el Reino Unido e Irlanda. Habla de la necesidad de escalabilidad y rendimiento del almacenamiento, así como de nube híbrida, acceso a los tres hiperescaladores y la capacidad de mover, copiar y clonar datos para discutirlos antes de las ejecuciones de inferencia. Caley también habla sobre la importancia de la integración de la interfaz de programación de aplicaciones (API), una capa de datos estandarizada que puede conectarse a Kubernetes, la integración con Python, plataformas de flujo de trabajo como Kafka y microservicios y marcos de trabajo de Nvidia como NIM y NEMO. Antony Adshead: Desde el punto de vista del almacenamiento, ¿qué diferencian a las cargas de trabajo de IA? Grant Caley: Las cargas de trabajo empresariales tradicionales están bastante bien definidas en cuanto a las características de esa carga de trabajo y los requisitos para esa carga de trabajo. Con la IA, es completamente diferente. La IA comienza siendo muy pequeña en términos de desarrollo, pero puede escalar rápidamente a instalaciones de producción de varios petabytes que abarcan no solo las instalaciones sino también la nube. Cuando se mira desde la perspectiva de la carga de trabajo de IA, es casi completamente diferente de una especie de aplicación empresarial enfocada y aislada. Eso significa que tiene que hacer frente a diferentes requisitos de rendimiento. Las capacidades que hay que albergar para la IA desde la perspectiva de los datos van desde solo gigabytes hasta petabytes de datos, lo que presenta sus propios desafíos. Desde la perspectiva de la carga de trabajo de IA, a menudo hay que manipular grandes conjuntos de datos, moverlos, clonarlos, copiarlos, prepararlos para limpiarlos e ingresarlos, y luego usarlos para realizar inferencias. Hay mucho mantenimiento en torno al tipo de requisitos que también se aplican a la IA. Y otro hecho interesante es que ahora vemos que la IA no es sólo un juego local. es AWS [Amazon Web Services]Azure y Google Play también. Los clientes están desarrollando y aprovechando todos esos entornos, así como sus centros de datos, para ofrecer IA. Y por lo que hemos visto recientemente, la IA se está convirtiendo en la propiedad intelectual de la empresa, los datos que aprovecha y los resultados que produce. La seguridad de esos datos es fundamental, ya que poder evidenciarlos, controlarlos y versionarlos, debido a algunas de las leyes que están surgiendo en torno a la IA. Todo eso marca una gran diferencia en cómo debemos tratarlo. Y luego, en última instancia, si observa la IA en general en comparación con cualquier carga de trabajo empresarial, el flujo de trabajo real es realmente complejo y debe tenerlo en cuenta en la forma en que entrega la IA. Por lo tanto, están sucediendo muchas cosas diferentes en cuanto a las cargas de trabajo en un contexto de IA. ¿Qué necesita el almacenamiento para hacer frente a las cargas de trabajo de IA? Caley: En cierto modo se basa en la última respuesta que di. A medida que los clientes comienzan a desarrollar IA, a menudo comienzan en la nube porque los conjuntos de herramientas están ahí (las plataformas) y no tienen que gastar mucho dinero en crear entornos. Por lo tanto, debe poder aprovechar la nube. Pero igualmente, muchos clientes lo hacen localmente. Están construyendo una pequeña GPU [graphics processing unit] Las plataformas en servidores se están desarrollando en DGX más grandes o Nvidia SuperPods y ese tipo de configuraciones. Lo que es clave debajo de todo eso desde una perspectiva de almacenamiento son los datos que impulsan los resultados que están tratando de hacer. Ya sea en las primeras etapas de desarrollo en la nube o en el paso a la producción de primer paso en las instalaciones, hasta cómo envían los datos para inferir dónde realmente se necesitan. Eso podría ser pequeñas fábricas, sitios remotos, lo que sea. Entonces, la movilidad de datos desde la capa de almacenamiento es realmente clave, y eso significa que no hay que construir silos de almacenamiento para cada uno de esos casos de uso. Realmente hay que tratar de abarcar esos casos de uso y entregar algo que brinde movilidad de datos. Solíamos hablar de entregar una estructura de datos, pero es ese tipo de interconectividad lo que es realmente importante. Creo que la otra cosa para la IA es que comienza con un bajo rendimiento cuando estás haciendo tus primeras etapas de entrenamiento, pero eso puede escalar rápidamente. Entonces, el rendimiento es un factor importante. Es necesario saber que el almacenamiento puede satisfacer desde los requisitos más pequeños hasta los de producción y escalabilidad. Y muchas empresas se olvidan de eso cuando pasan a la producción. Han creado estos silos de diferentes tipos de almacenamiento, sin darse cuenta de que, en algún momento, tendrán que escalarlos significativamente. Y la escalabilidad es otro factor que el almacenamiento debe cumplir. Como dije, podrían ser gigabytes en los primeros días, pero rápidamente pueden convertirse en petabytes, en particular a medida que las empresas reúnen conjuntos de datos para intentar maximizar el valor de la capacitación y los resultados que pueden ofrecer. Pero, por supuesto, los datos son la propiedad intelectual de la empresa. Debes colocarlos en una infraestructura de almacenamiento que brinde una administración de confianza cero. [So] eso [it] ofrece cifrado de seguridad de los datos, que puede hacer, si está haciendo versiones y algún tipo de evidencia basada en [work] – esos resultados inmutables o indelebles para que puedas probar potencialmente los datos tal como eran y las etapas por las que pasaron. Hay muchas cosas que debes hacer. Y creo que lo último sobre lo que el almacenamiento de datos debe ofrecer es poder ofrecer integración en todas las herramientas que el cliente busca usar. Están considerando cargas de trabajo de Kubernetes, entregándolas a través de Kubernetes. Están considerando usar diferentes marcos locales en la nube. Su capa de almacenamiento, si va a ofrecer un valor real, tiene que poder integrarse mediante API en todos esos diferentes entornos para maximizar las capacidades que se pueden ofrecer desde la propia capa de almacenamiento. Tipos de almacenamiento Mirando las formas en que se almacenan los datos para la IA, el tipo de datos, como vectores, las necesidades de puntos de control, los marcos que se utilizan como TensorFlow y PyTorch, ¿hay algo en ellos que dicte la forma en que necesitamos almacenar los datos, el tipo de almacenamiento? Caley: Creo que hay un par de cosas. Una de ellas es que la comunidad de IA no se adhiere a muchos estándares. Cada desarrollador o científico de datos tiene su propio conjunto de herramientas que prefiere utilizar. Solo cuando estas cosas escalan a producción se empiezan a imponer estándares, en términos de: «Vale, vamos a utilizar estos marcos, vamos a utilizar estas tecnologías». Y, en consecuencia, la capa de almacenamiento que se encuentra debajo tiene que ser capaz de dar cabida a todo eso. De lo contrario, se están adquiriendo distintos tipos de requisitos para distintos tipos de clientes, distintos tipos de casos de uso. Para empezar, es absolutamente fundamental el hecho de que el almacenamiento de datos se pueda integrar en la plataforma Kubernetes. La mayoría de los resultados, como PyTorch y TensorFlow, utilizan Kubernetes para escalar su entorno, por lo que la integración en Kubernetes para poder convertirla en una capacidad automatizada y sin fisuras es importante. Pero también hay otros conjuntos de herramientas. Para muchas cosas en desarrollo que aprovechan Python, es necesario realizar una integración de API en él. Desarrollamos nuestros propios kits de herramientas para la integración de Python para que sea más fácil para los clientes. Pero luego hay tecnologías auxiliares en torno a la IA, como Kafka, y cómo se realizan los flujos de datos, la limpieza de datos, la limpieza de datos, el procesamiento, etc. Todas ellas pueden beneficiarse de las ventajas que puede aportar el almacenamiento si puede integrar funciones de almacenamiento (como clonación instantánea, puntos de control instantáneos, reversiones instantáneas) en esas diferentes herramientas que tienen los clientes. Se necesita flexibilidad porque se necesita poder ofrecer IA en las instalaciones, en el borde y en la nube. Tener una capa de datos estandarizada como la que podría ofrecer NetApp, por ejemplo, puede ayudar realmente a reducir esa complejidad. Volvemos a la seguridad de los datos. Es casi una de las principales prioridades sobre las que nos preguntan en IA, especialmente recientemente, con muchas de las legislaciones que se han planteado: ¿podemos proteger estos datos? ¿Podemos aplicar confianza cero? ¿Podemos hacer que estén disponibles y altamente disponibles? Todas estas son preocupaciones que debe tener en cuenta, dependiendo de las herramientas, los marcos. Realmente no importa qué herramientas o marcos esté utilizando. Todos estos tipos de cosas son importantes. Integración con Nemo, integración con portátiles Jupyter, GPU directa con Nvidia, Python, Kubeflow, todas estas tecnologías. Si la capa de almacenamiento puede integrarse con ellas y aportar valor, eso ayuda enormemente a reducir la complejidad y ofrece mejores resultados de comercialización para el cliente.