Los aficionados descubren cómo insertar fuentes personalizadas en imágenes generadas por IA

Ampliar / Un ejemplo generado por IA del LoRA de Cyberpunk 2077, renderizado con Flux dev. La semana pasada, un aficionado que estaba experimentando con el nuevo modelo de síntesis de imágenes de IA de Flux descubrió que es inesperadamente bueno para renderizar reproducciones personalizadas de tipos de letra. Si bien han existido métodos mucho más eficientes para mostrar fuentes de computadora durante décadas, la nueva técnica es útil para los aficionados a las imágenes de IA porque Flux es capaz de renderizar representaciones de texto preciso, y los usuarios ahora pueden insertar directamente palabras renderizadas en fuentes personalizadas en generaciones de imágenes de IA. Hemos tenido la tecnología para producir con precisión fuentes suaves renderizadas por computadora en formas personalizadas desde la década de 1980 (1970 en el espacio de investigación), por lo que crear una fuente replicada por IA no es una gran novedad en sí misma. Pero una nueva técnica significa que podría ver aparecer una fuente en particular en imágenes generadas por IA, por ejemplo, de un menú de pizarra en un restaurante fotorrealista o una tarjeta de presentación impresa sostenida por un zorro cyborg. Poco después de la aparición de los modelos convencionales de síntesis de imágenes de IA como Stable Diffusion en 2022, algunas personas comenzaron a preguntarse: ¿cómo puedo insertar mi propio producto, prenda de vestir, personaje o estilo en una imagen generada por IA? Una respuesta que surgió llegó en forma de LoRA (adaptación de bajo rango), una técnica descubierta en 2021 que permite a los usuarios aumentar el conocimiento en un modelo base de IA con complementos modulares que han sido entrenados de forma personalizada. Un ejemplo de Cyberpunk 2077 LoRA, renderizado con Flux dev. Un ejemplo de Cyberpunk 2077 LoRA, renderizado con Flux dev. Un ejemplo de Cyberpunk 2077 LoRA, renderizado con Flux dev. Un ejemplo de Cyberpunk 2077 LoRA, renderizado con Flux dev. Estos LoRA, como se denominan a los módulos, permiten que los modelos de síntesis de imágenes creen nuevos conceptos que no se encontraban originalmente (o que estaban mal representados) en los datos de entrenamiento del modelo base. En la práctica, los aficionados a la síntesis de imágenes las utilizan para reproducir estilos únicos (por ejemplo, todo lo que se hace con tiza) o temas (imágenes detalladas de Spider-Man, por ejemplo). Cada LoRA debe entrenarse especialmente utilizando ejemplos proporcionados por el usuario. Hasta Flux, la mayoría de los generadores de imágenes de IA no eran muy buenos para reproducir texto preciso dentro de una escena. Si se le pedía a Stable Diffusion 1.5 que reprodujera un cartel que dijera «queso», devolvería un galimatías. DALL-E 3 de OpenAI, lanzado el año pasado, fue el primer modelo convencional que reprodujo texto bastante bien. Flux todavía comete errores con palabras y letras a veces, pero es el modelo de IA más capaz de reproducir «texto en el mundo» (podría llamarlo así) que hemos visto hasta ahora. Dado que Flux es un modelo abierto disponible para descargar y ajustar, el mes pasado fue la primera vez que entrenar un LoRA tipográfico podría tener sentido. Eso es exactamente lo que descubrió recientemente un entusiasta de la IA llamado Vadim Fedenko (que no respondió a una solicitud de entrevista al cierre de esta edición). «Estoy realmente impresionado por cómo resultó esto», escribió Fedenko en una publicación de Reddit. «Flux capta cómo se ven las letras en un estilo/fuente en particular, lo que hace posible entrenar Loras con fuentes, tipos de letra, etc. específicos. Pronto entrenaré más de ellos». Un ejemplo de la primera tipografía LoRA de Flux, Y2K. Un ejemplo de la Y2K LoRA. Un ejemplo de la Y2K LoRA. Para su primer experimento, Fedenko eligió una fuente de estilo «Y2K» burbujeante que recuerda a las populares a fines de la década de 1990 y principios de la de 2000, y publicó el modelo resultante en la plataforma Civitai el 20 de agosto. Dos días después, un usuario de Civitai llamado «AggravatingScree7189» publicó una segunda tipografía LoRA que reproduce una fuente similar a la que se encuentra en el videojuego Cyberpunk 2077. «El texto era tan malo antes que nunca se me ocurrió que se podía hacer esto», escribió un usuario de Reddit llamado eggs-benedryl al reaccionar a la publicación de Fedenko sobre la fuente Y2K. Otro Redditor escribió: «No sabía que el diario Y2K era falso hasta que lo amplí». ¿Es exagerado? Ampliar / Un ejemplo de Cyberpunk 2077 LoRA, renderizado con Flux dev. Es cierto que usar una red neuronal de síntesis de imágenes profundamente entrenada para renderizar una fuente antigua y simple sobre un fondo simple probablemente sea exagerado. Probablemente no quieras usar este método para reemplazar Adobe Illustrator al diseñar un documento. «Esto se ve bien, pero es un poco gracioso cómo estamos reinventando la idea de las fuentes como LoRA de 300 MB», escribió un comentarista de Reddit en un hilo sobre la fuente Cyberpunk 2077. La IA generativa a menudo es criticada por su impacto ambiental, y es una preocupación válida para los centros de datos masivos en la nube. Pero descubrimos que Flux puede insertar estas fuentes en escenas generadas por IA mientras se ejecuta localmente en una RTX 3060 en una forma cuantificada (de tamaño reducido) (y el modelo de desarrollo completo puede ejecutarse en una RTX 3090). Es un consumo de electricidad similar al de jugar a un videojuego en la misma PC. Lo mismo ocurre con la creación de LoRA: el creador de la fuente Cyberpunk 2077 entrenó a LoRA en tres horas en una GPU 3090. También existen problemas éticos con el uso de generadores de imágenes de IA, como la forma en que se entrenan con datos recopilados sin el consentimiento del propietario del contenido. Aunque la tecnología genera divisiones entre algunos artistas, una gran comunidad de personas la usa todos los días y comparte los resultados en línea a través de plataformas de redes sociales como Reddit, lo que conduce a nuevas aplicaciones de la tecnología como esta. Al momento de escribir esto, solo hay dos LoRA de tipografía Flux personalizadas, pero ya hemos escuchado planes de personas que crean más mientras escribimos esto. Aunque todavía se encuentra en sus primeras etapas, la técnica de creación de fuentes LoRA puede llegar a ser fundamental si la síntesis de imágenes con IA se implementa más ampliamente en el futuro. Adobe, con sus propios modelos de síntesis de imágenes, probablemente esté observando.

Todo lo que necesitas saber sobre tecnología

Los aficionados descubren cómo insertar fuentes personalizadas en imágenes generadas por IA

Deja una respuesta Cancelar la respuesta

Los aficionados descubren cómo insertar fuentes personalizadas en imágenes generadas por IA

¡Ahorra hasta un 15% con esta oferta de Amazon Kindle Paperwhite!

Cómo instalar Steam en Linux para empezar a jugar miles de juegos

Deja una respuesta Cancelar la respuesta