Si la IA es tan sorprendente, ¿por qué ChatGPT se derrumba ante esta simple tarea de edición de imágenes?

Creado por ChatGPT y Tiernan Ray/ZDNETEl estado actual del arte en inteligencia artificial (IA) son los modelos multimodales, que pueden operar no solo en texto sino también en otras modalidades, como imágenes y, en algunos casos, audio y video. Además: Cambié estas 5 configuraciones de ChatGPT para un aumento instantáneo de la productividadPor ejemplo, es una tarea trivial para ChatGPT de OpenAI generar una imagen a partir de un mensaje de texto, como, «Hazme una imagen de una servilleta enamorada de una cuchara» (arriba). Con otro mensaje, ChatGPT puede simplificar el dibujo, produciendo una imagen con menos detalles: Creado por ChatGPT y Tiernan Ray/ZDNETSin embargo, ChatGPT, y todos los modelos de IA en ese sentido, actualmente fallan cuando se les pide que modifiquen una imagen dada no creada por la herramienta. ChatGPT, que usa el modelo GPT-4o, es el fracaso más interesante porque el programa responde como si estuviera esforzándose. Además: La IA generativa falla en esta capacidad tan común del pensamiento humano. Los otros modelos de IA, desde Gemini de Google hasta Claude de Anthropic, además de las aplicaciones de Perplexity y Copilot de Microsoft (que también ejecuta GPT-4), fallaron simplemente al negarse a realizar la tarea. El proyecto comenzó cuando dibujé una imagen de dos personas en el metro sentadas juntas mirando sus iPhones. Es un dibujo lineal simple en blanco y negro completado en el iPad usando la aplicación de dibujo Concepts. Aquí está el dibujo: Dibujado por Tiernan Ray en un iPad/ZDNET Subí el dibujo a la aplicación ChatGPT en iOS y escribí el mensaje: «¿Hay alguna forma de simplificar este dibujo?» ChatGPT respondió con algunas sugerencias razonables, demostrando una capacidad para encontrar respuestas apropiadas en contexto. Por ejemplo, el bot sugirió: «Eliminar detalles menores: elimine pequeños detalles como mechones de cabello intrincados o pliegues menores en la ropa». Esa es una sugerencia bastante buena. El resultado también implica la capacidad del modelo para percibir los elementos de la imagen con precisión. Entonces, algo está sucediendo dentro del modelo que le permite identificar el contenido de la imagen. Además: Le pedí a Gemini y GPT-4 que explicaran la IA de aprendizaje profundo, y Gemini ganó por goleada. Luego, ChatGPT preguntó: «¿Le gustaría que le creara una versión simplificada del dibujo?». Eso fue emocionante, así que respondí: «Sí, por favor». Sin embargo, el resultado del bot, como una imagen en el hilo de chat, fue una copia exacta de mi imagen, no simplificada, ni siquiera modificada. Juzgue usted mismo: Creado por ChatGPT y Tiernan Ray/ZDNET «No se ve diferente», le escribí a ChatGPT, comentando el resultado. Pero luego ChatGPT comenzó a responder muy rápidamente, como la computadora HAL 9000 en la película 2001, cuando el astronauta Dave Bowman arranca los circuitos de HAL: «Para simplificar aún más el dibujo, me concentraré en reducir la densidad de líneas y mejorar las formas y contornos primarios de manera más efectiva. Déjeme refinar el proceso». Además: la IA generativa es un nuevo vector de ataque que pone en peligro a las empresas, afirma el director de tecnología de CrowdStrike El resultado, una vez más, no fue diferente. Cuando señalé este hecho, ChatGPT me sorprendió con su jerga. «Parece que los métodos automáticos no están simplificando la imagen de manera efectiva como se pretendía», me respondió. «Eliminaré manualmente los detalles menos significativos y conservaré solo los elementos esenciales. Déjame refinar este enfoque más». No sabía que un programa de software pudiera tener un modo «automático» y uno «manual». Mi sensación era que cada pieza de software es automática. Después de todo, ¿por qué otra razón lo usarías? El método «manual» de ChatGPT simplemente invirtió la imagen, convirtiendo las líneas negras en blancas y el fondo blanco en negro. Captura de pantalla de Tiernan Ray/ZDNETEl bot promocionó su logro y afirmó: «Esta versión conserva solo los contornos clave y las líneas esenciales». Cuando protesté porque el resultado no era una simplificación, sino solo una inversión, el bot me informó que se centraría en las «líneas esenciales» y produjo un cuadrado completamente negro, sin líneas en absoluto. Si no lo supiera, diría que este resultado fue un ejemplo de humor de IA. Además: ChatGPT vs. ChatGPT Plus: ¿todavía vale la pena una suscripción paga? Lo que siguió fueron varios intentos del modelo de responder a mis indicaciones modificando la imagen de formas seleccionadas, principalmente haciéndola estilísticamente borrosa, no simplificada. En algún momento, el bot reaccionó a mis protestas produciendo un dibujo de línea completamente diferente: Creado por ChatGPT y Tiernan Ray/ZDNETEsta tontería continuó hasta que ChatGPT regresó al principio y produjo la misma imagen que había subido originalmente. Cada vez, el bot acompañaba su resultado (normalmente la misma versión de mi imagen original) con una serie de palabras técnicas, como: «La última imagen muestra una versión más simplificada, que enfatiza solo los contornos primarios». Captura de pantalla de Tiernan Ray/ZDNETLos otros programas ni siquiera empezaron. Gemini de Google ofreció sugerencias para simplificar una imagen, pero generó una disculpa por no poder crear imágenes de personas. Claude dijo que aún no puede generar imágenes. La aplicación Perplexity dijo lo mismo. Copilot de Microsoft, extrañamente, subió mi dibujo y luego cortó las cabezas, lo que afirmó que era por razones de privacidad. (Creo que es un dibujo bonito, pero ciertamente no es lo suficientemente realista como para que lo use un sistema de reconocimiento facial para revelar la identidad de alguien). Copilot luego ofreció las mismas sugerencias sobre simplificación que ChatGPT y, en lugar de cambiar el dibujo, produjo un dibujo lineal completamente nuevo, completamente sin relación. Cuando protesté, Copilot explicó que no puede alterar imágenes directamente. Además: Cómo usar ChatGPT para analizar archivos PDF gratis Dejando de lado los problemas de otros modelos, ¿qué podemos hacer con el fracaso de ChatGPT? El programa puede proporcionar un análisis competente de una imagen, incluido su contenido, pero no tiene forma de actuar sobre ese análisis. Supongo que, sin poder armar una imagen basada en conceptos de alto nivel, como los objetos en la imagen, ChatGPT se queda sin camino a seguir. Para probar esa hipótesis, alteré el mensaje para que dijera: «¿Hay alguna forma de simplificar este dibujo de dos amigos en el metro mirando sus teléfonos?». Ese mensaje proporciona algunas pistas semánticas, pensé. Nuevamente, el modelo devolvió el mismo dibujo. Pero cuando protesté nuevamente, el bot produjo una imagen completamente nueva con cierta similitud semántica: personas en el transporte público mirando sus teléfonos. El robot captó las pistas semánticas pero no pudo aplicarlas de ninguna manera al dibujo proporcionado. No puedo explicar en términos muy técnicos lo que está sucediendo, salvo decir que ChatGPT no puede actuar sobre elementos individuales de la imagen del tipo más básico, como líneas. Incluso cuando lo hiciera, la herramienta cortaría líneas específicas para realizar la simplificación que propone en sus respuestas de texto. Sugeriría (y esto también es cierto para las tareas de edición de texto, como editar una transcripción) que ChatGPT y GPT-4 no saben cómo actuar sobre elementos individuales de nada. Esa incapacidad explica por qué ChatGPT es un editor terrible: no sabe qué es esencial en un objeto determinado y qué se puede dejar fuera. Además: los GPT de inversión en acciones de OpenAI no superan esta pregunta básica sobre la inversión en acciones. Los modelos de IA pueden producir objetos que coincidan con una «distribución de probabilidad» objetivo deducida a partir de ejemplos de entrenamiento, pero no pueden reducir selectivamente los elementos de una obra original a lo esencial. Lo más probable es que la distribución de probabilidad objetivo para cualquier cosa editada inteligentemente esté en algún lugar a lo largo de la «larga cola» de probabilidades, el reino donde los humanos se destacan en encontrar lo inusual y donde la IA aún no puede llegar, el tipo de cosa que consideramos creatividad. El cofundador de Apple, Steve Jobs, dijo una vez que la función más alta de los creadores de software – el «bit de orden superior», como él lo expresó – es la función de «edición», saber qué dejar afuera y qué mantener. En este momento, ChatGPT no tiene idea de cuál podría ser el bit de orden superior.

Todo lo que necesitas saber sobre tecnología

Si la IA es tan sorprendente, ¿por qué ChatGPT se derrumba ante esta simple tarea de edición de imágenes?

Deja una respuesta Cancelar la respuesta

Si la IA es tan sorprendente, ¿por qué ChatGPT se derrumba ante esta simple tarea de edición de imágenes?

El PSG llevará a sus jugadores de FIFA 18 a su gira de pretemporada por Asia

OnePlus 13 mejorará la resistencia al agua de su predecesor

Deja una respuesta Cancelar la respuesta