Manos a la obra El lanzamiento de las PC Copilot+ AI de Microsoft trajo consigo una gran cantidad de funciones mejoradas con aprendizaje automático, incluido un generador de imágenes integrado en MS Paint que se ejecuta localmente y convierte sus garabatos en arte. El único problema es que necesitará una PC Copilot+ AI nueva y brillante para desbloquear estas funciones. Bueno, para desbloquear Microsoft Cocreate de todos modos. Si tiene una tarjeta gráfica remotamente moderna, o incluso una integrada decente, (probablemente) tiene todo lo que necesita para experimentar con la generación de imágenes de IA localmente en su máquina. Desde su debut hace casi dos años, los modelos Stable Diffusion de Stability AI se han convertido en la opción preferida para la generación local de imágenes, debido al tamaño increíblemente compacto, la licencia relativamente permisiva y la facilidad de acceso. A diferencia de muchos modelos propietarios, como Midjourney o Dall-e de OpenAI, puede descargar el modelo y ejecutarlo usted mismo. Debido a esto, en los últimos años han surgido una gran cantidad de aplicaciones y servicios diseñados para hacer que la implementación de modelos derivados de Stable Diffusion sea más accesible en todo tipo de hardware. En este tutorial, veremos cómo funcionan realmente los modelos de difusión y exploraremos una de las aplicaciones más populares para ejecutarlos localmente en su máquina. Requisitos previos: La interfaz de usuario web de Stable Diffusion de Automatic1111 ejecuta una amplia gama de hardware y, en comparación con algunos de nuestros otros software de tutoriales prácticos de IA, tampoco consume muchos recursos. Esto es lo que necesitará: Para esta guía, necesitará una PC con Windows o Linux (estamos usando Ubuntu 24.04 y Windows 11) o una Mac con Apple Silicon. Una tarjeta gráfica Nvidia o AMD compatible con al menos 4 GB de vRAM. Cualquier tarjeta gráfica Nvidia razonablemente moderna o la mayoría de las tarjetas gráficas Radeon de la serie 7000 (algunas tarjetas de la serie 6000 de gama alta también pueden funcionar) deberían funcionar sin problemas. Probamos con Tesla P4 de Nvidia, RTX 3060 12G, RTX 6000 Ada Generation, así como RX 7900 XT de AMD Los controladores gráficos más recientes para su GPU en particular. Los conceptos básicos de los modelos de difusión Antes de pasar a implementar y ejecutar modelos de difusión, probablemente valga la pena echar un vistazo de alto nivel a cómo funcionan realmente. En pocas palabras, los modelos de difusión han sido entrenados para tomar ruido aleatorio y, a través de una serie de pasos de eliminación de ruido, llegar a una imagen reconocible o muestra de audio que sea representativa de un mensaje específico. El proceso de entrenamiento de estos modelos también es bastante sencillo, al menos conceptualmente. Se importa un gran catálogo de imágenes etiquetadas, gráficos o, a veces, muestras de audio (a menudo extraídas de Internet) y se les aplican niveles crecientes de ruido. A lo largo de millones, o incluso miles de millones, de muestras, el modelo se entrena para revertir este proceso, pasando de ruido puro a una imagen reconocible. Durante este proceso, tanto los datos como sus etiquetas se convierten en vectores asociados. Estos vectores sirven como guía durante la inferencia. Si se le pide un «cachorro jugando en un campo de hierba», el modelo utilizará esta información para guiar cada paso del proceso de eliminación de ruido hacia el resultado deseado. Para ser claros, esto es una simplificación excesiva, pero proporciona una descripción general básica de cómo los modelos de difusión pueden generar imágenes. Hay mucho más en juego bajo el capó, y recomendamos consultar la explicación de Stable Diffusion de Computerphile si está interesado en aprender más sobre esta raza particular de modelo de IA. Primeros pasos con Automatic1111 Podría decirse que la herramienta más popular para ejecutar modelos de difusión localmente es la interfaz de usuario web Stable Diffusion de Automatic1111. La interfaz de usuario web Stable Diffusion de Automatic1111 proporciona acceso a una gran cantidad de herramientas para ajustar las imágenes generadas por IA: haga clic para ampliar cualquier imagen Como sugiere el nombre, la aplicación proporciona una interfaz de usuario web sencilla y autoalojada para crear imágenes generadas por IA. Es compatible con Windows, Linux y macOS, y puede ejecutarse en Nvidia, AMD, Intel y Apple Silicon con algunas salvedades que abordaremos más adelante. La instalación real varía, dependiendo de su sistema operativo y hardware, así que no dude en saltar a la sección relevante para su configuración. Nota: Para que esta guía sea más fácil de consumir, la hemos dividido en cuatro secciones: Introducción e instalación en Linux Cómo ejecutar en Windows y MacOS Uso de la interfaz de usuario web de Stable Diffusion Integración y conclusión Compatibilidad con gráficos Intel En el momento de escribir este artículo, la interfaz de usuario web de Stable Diffusion de Automatic1111 no admite de forma nativa los gráficos Intel. Sin embargo, existe una bifurcación de OpenVINO que sí lo hace tanto en Windows como en Linux. Lamentablemente, no pudimos probar este método, por lo que su experiencia puede variar. Puede encontrar más información sobre el proyecto aquí. Instalación de Automatic1111 en Linux: AMD y Nvidia Para empezar, comenzaremos por poner en funcionamiento la interfaz web de difusión estable de Automatic1111 (a la que llamaremos A1111 de ahora en adelante) en un sistema Ubuntu 24.04. Estas instrucciones deberían funcionar tanto para las GPU AMD como para las Nvidia. Si estás ejecutando una versión diferente de Linux, te recomendamos que consultes el repositorio de GitHub de A1111 para obtener más información sobre las implementaciones específicas de la distribución. Antes de comenzar, debemos instalar algunas dependencias, a saber, git y el paquete software-properties-common: sudo apt install git software-properties-common -y También necesitaremos obtener Python 3.10. Para bien o para mal, Ubuntu 24.04 no incluye esta versión en sus repositorios, por lo que tendremos que agregar el PPA de Deadsnakes antes de poder obtener los paquetes que necesitamos. sudo add-apt-repository ppa:deadsnakes/ppa -y sudo apt install python3.10-venv -y Nota: En nuestras pruebas, descubrimos que las GPU AMD necesitaban algunos paquetes adicionales para funcionar, además de un reinicio. #SOLO GPU AMD sudo apt install libamd-comgr2 libhsa-runtime64-1 librccl1 librocalution0 librocblas0 librocfft0 librocm-smi64-1 librocsolver0 librocsparse0 rocm-device-libs-17 rocm-smi rocminfo hipcc libhiprand1 libhiprtc-builtins5 radeontop # SOLO GPU AMD sudo usermod -aG render,video $USER # SOLO GPU AMD sudo reboot Con nuestras dependencias resueltas, ahora podemos desplegar la interfaz web de A1111 usando git. git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui && cd stable-diffusion-webui python3.10 -m venv venv Finalmente, podemos iniciar la interfaz de usuario web ejecutando lo siguiente. ./webui.sh El script comenzará a descargar paquetes relevantes para su sistema específico, así como también a descargar el archivo de modelo de Stable Diffusion 1.5. Si la interfaz de usuario web de Stable Diffusion no se carga en las GPU AMD, es posible que deba modificar webui-user.sh. Esto parece estar relacionado con la compatibilidad del dispositivo en la versión de ROCm que se envía con A1111. Según entendemos, esto debería resolverse cuando la aplicación pase a ROCm 6 o posterior. #AMD GPUS OMLY echo «export HSA_OVERRIDE_GFX_VERSION=11.0.0» >> ~/stable-diffusion-webui/webui-user.sh Si sigues teniendo problemas, consulta nuestra sección «Banderas útiles» para obtener más consejos. En la siguiente sección, analizaremos en profundidad cómo hacer que A1111 se ejecute en Windows y macOS.