Después de que ChatGPT llegó al público hace unos años, varias marcas han experimentado un rápido crecimiento en el campo de la inteligencia artificial. El trabajo de Apple hasta ahora en este sentido ha sido discreto. Sin embargo, esto no significa que Apple no haya logrado ningún progreso en el campo de la IA. Apple lanzó recientemente un nuevo modelo de IA de código abierto llamado «MGIE». Este modelo de IA puede editar imágenes basándose en instrucciones en lenguaje natural. El nombre completo de MGIE es Edición de imágenes guiada por MLLM. Utiliza un modelo de lenguaje grande multimodal (MLLM) para interpretar las instrucciones del usuario y realizar operaciones a nivel de píxeles. MGIE puede comprender comandos en lenguaje natural emitidos por los usuarios. Puede realizar operaciones como modificaciones al estilo de Photoshop, optimización global de fotografías y edición local. Apple e investigadores de la Universidad de California en Santa Bárbara están colaborando para publicar resultados de investigaciones relacionadas con MGIE. Los resultados se publicarán en la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) de 2024. Esta conferencia es una de las principales conferencias para la investigación de IA en el mundo. ¿Qué es MLLM? Para comprender correctamente MGIE, primero debemos analizar MLLM porque MGIE usa MLLM. MLLM es un potente modelo de IA que puede procesar texto e imágenes simultáneamente, mejorando así las capacidades de edición de imágenes basadas en instrucciones. Los MLLM han demostrado excelentes capacidades en comprensión intermodal y generación de respuestas de percepción visual. Sin embargo, todavía no se ha utilizado mucho en tareas de edición de imágenes. MGIE integra MLLM en el proceso de edición de imágenes de dos maneras. En primer lugar, utiliza MLLM para derivar instrucciones expresivas a partir de la entrada del usuario. Las instrucciones son concisas y brindan una guía clara para el proceso de edición. Por ejemplo, al ingresar «hacer el cielo más azul», MGIE puede generar el comando «aumentar la saturación del área del cielo en un 20%». En segundo lugar, utiliza MLLM para generar imaginaciones visuales, es decir, representaciones latentes de las ediciones deseadas. Esta representación captura la esencia de la edición y se puede utilizar para guiar las operaciones a nivel de píxeles. MGIE emplea un novedoso esquema de capacitación de extremo a extremo que optimiza conjuntamente la derivación de instrucciones, la imaginación visual y los módulos de edición de imágenes. Funciones de MGIE MGIE puede manejar una variedad de situaciones de edición, desde simples ajustes de color hasta manipulación compleja de objetos. El modelo también puede realizar ediciones globales y locales según las preferencias del usuario. Algunas de las características y funcionalidades de MGIE incluyen: Edición expresiva basada en instrucciones: MGIE puede generar instrucciones claras y concisas para guiar eficazmente el proceso de edición. Esto no sólo mejora la calidad de la edición sino que también mejora la experiencia general del usuario. Edición de estilo de Photoshop: MGIE puede realizar ediciones de estilo comunes de Photoshop, como recortar, cambiar el tamaño, rotar, voltear y agregar filtros. La maqueta también puede aplicar ediciones más avanzadas, como cambiar el fondo, agregar o eliminar objetos y combinar imágenes. Noticias de la semana de Gizchina Optimización global de fotografías: MGIE puede optimizar la calidad general de sus fotografías, como el brillo, el contraste, la nitidez y el equilibrio de color. El modelo también puede aplicar efectos artísticos como bocetos, pinturas y caricaturas. Edición local: MGIE puede editar áreas u objetos específicos de una imagen, como la cara, los ojos, el cabello, la ropa y los accesorios. El modelo también puede modificar las propiedades de estas áreas u objetos, como forma, tamaño, color, textura y estilo. MGIE es un proyecto de código abierto en GitHub. Los usuarios pueden encontrar código, datos y modelos previamente entrenados aquí. El proyecto también proporciona un cuaderno de demostración que muestra cómo utilizar MGIE para completar diversas tareas de edición. Implicaciones y perspectivas futuras El lanzamiento de MGIE destaca la creciente destreza de Apple en la investigación y el desarrollo de la IA. Esta nueva herramienta no sólo tiene aplicaciones prácticas para fines de edición de imágenes personales y profesionales, como redes sociales, comercio electrónico, educación, entretenimiento y arte, sino que también representa un avance significativo en la IA multimodal. La naturaleza de código abierto del modelo y su disponibilidad en plataformas como GitHub y Hugging Face Spaces indican su potencial para una mayor investigación y desarrollo más allá de su estado actual. Palabras finales En conclusión, el reciente lanzamiento por parte de Apple del modelo MGIE (edición de imágenes guiada por MLLM) marca un hito importante en el campo de la inteligencia artificial y la edición de imágenes. Aprovechando el poder de los modelos de lenguaje grande multimodales (MLLM), MGIE permite a los usuarios realizar tareas sofisticadas de edición de imágenes a través de instrucciones en lenguaje natural. Este enfoque innovador, desarrollado en colaboración con investigadores de la Universidad de California en Santa Bárbara, demuestra el compromiso de Apple con el avance de la tecnología de inteligencia artificial y sus aplicaciones prácticas. La integración de MLLM en el proceso de edición de imágenes no solo mejora la experiencia del usuario sino que también abre nuevas posibilidades de expresión creativa y productividad. La capacidad de MGIE para comprender y ejecutar comandos de edición complejos, desde simples ajustes de color hasta complejas manipulaciones de objetos, establece un nuevo estándar para las herramientas de edición de imágenes basadas en IA. Además, su naturaleza de código abierto fomenta la colaboración y la innovación dentro de la comunidad de investigación, allanando el camino para futuros avances en IA multimodal y técnicas de procesamiento de imágenes. A medida que MGIE continúa evolucionando y ganando terreno entre desarrolladores y usuarios por igual, sus implicaciones se extienden más allá de los escenarios de edición de imágenes personales y profesionales. Su disponibilidad en plataformas como GitHub y Hugging Face Spaces subraya su potencial para aplicaciones más amplias en diversos dominios, incluidos los medios sociales, el comercio electrónico, la educación, el entretenimiento y el arte digital. En esencia, el lanzamiento de MGIE subraya la dedicación de Apple para ampliar los límites de la tecnología de inteligencia artificial y, al mismo tiempo, brindar a los usuarios herramientas intuitivas y poderosas para la expresión creativa y la narración visual. A medida que las innovaciones impulsadas por la IA continúan dando forma al panorama digital, MGIE es un testimonio del potencial transformador de la investigación colaborativa y la innovación interdisciplinaria en la búsqueda de la excelencia tecnológica. El autor de Bio Efe Udin es un escritor de tecnología experimentado con más de siete años de experiencia. Cubre una amplia gama de temas en la industria tecnológica, desde la política industrial hasta el rendimiento de los teléfonos móviles. Desde móviles hasta tablets, Efe también ha estado atenta a los últimos avances y tendencias. Proporciona análisis y reseñas perspicaces para informar y educar a los lectores. Efe es un apasionado de la tecnología y cubre historias interesantes, además de ofrecer soluciones cuando es posible. Descargo de responsabilidad: Es posible que algunas de las empresas de cuyos productos hablamos nos compensen, pero nuestros artículos y reseñas son siempre nuestras opiniones honestas. Para obtener más detalles, puede consultar nuestras pautas editoriales y conocer cómo utilizamos los enlaces de afiliados.

Source link