Un nuevo estudio respaldado por Apple, en colaboración con la Universidad de Aalto en Finlandia, presenta a Iluvui: un modelo en idioma de visión capacitado para comprender las interfaces de aplicaciones móviles de capturas de pantalla y conversaciones de idiomas naturales. Esto es lo que eso significa y cómo lo hicieron. ILUVUI: Una IA que superó al modelo en el que se basó en el documento, Iluvui: modelado de visión de lenguaje de instrucción de UI a partir de conversaciones de máquinas, el equipo aborda un desafío de larga data en la interacción humana-computadora, o HCI: enseñando modelos AI para razonar sobre los interfaces de usuarios como los humanos, que en la práctica significa visualmente, así como semánticamente. «Comprender y automatizar las acciones en la UI es una tarea desafiante ya que los elementos de la interfaz de usuario en una pantalla, como elementos de lista, casillas de verificación y campos de texto, codifican muchas capas de información más allá de sus posibilidades de interactividad sola. (…) Las LLMS en particular han demostrado notables notables habilidades para la información visual de la US de la información natural en los que se realizan las instrucciones de tareas en muchos dominios, sin embargo, utilizando las descripciones de texto de los UI de las UIS con los LLMS de la información visual de la US de los LLM, lo que hace las habilidades visuales de la US. researchers explain, most vision-language models are trained on natural images, like dogs or street signs, so they don’t perform as well when asked to interpret more structured environments, like app UIs: “Fusing visual with textual information is important to understanding UIs as it mirrors how many humans engage with the world. One approach that has sought to bridge this gap when applied to natural images are Vision-Language Models (VLMs), which accept multimodal inputs of both images and text, typically output Solo texto, y permita la respuesta de preguntas de uso general, el razonamiento visual, las descripciones de escenas y las conversaciones con las entradas de imágenes. Con eso en mente, los investigadores ajustaron el VLM Llava de código abierto, y también adaptaron su método de entrenamiento para especializarse en el dominio de la UI. Lo entrenaron en pares de imágenes de texto que se generaron sintéticamente después de algunos «ejemplos dorados». El conjunto de datos final incluyó interacciones al estilo de preguntas y respuestas, descripciones detalladas de la pantalla, resultados de acción previstos e incluso planes de varios pasos (como «Cómo escuchar el último episodio de un podcast» o «Cómo cambiar la configuración de brillo») una vez capacitado en este conjunto de datos, el modelo resultante, Iluvui, pudo superar el LlaVa original en ambas benchmarks y los testamentos de preferencia humanos. Además, no requiere que un usuario especifique una región de interés en la interfaz. En cambio, el modelo comprende toda la pantalla contextualmente a partir de un mensaje simple: ILUVUI (…) no requiere una región de interés y acepta un mensaje de texto como entrada además de la imagen de la interfaz de usuario, que le permite proporcionar respuestas para casos de uso como respuesta de preguntas visuales. ¿Cómo se beneficiarán los usuarios de esto? Los investigadores de Apple dicen que su enfoque podría ser útil para la accesibilidad, así como para las pruebas de interfaz de usuario automatizadas. También señalan que, si bien ILUVUI todavía se basa en componentes abiertos, el trabajo futuro podría involucrar codificadores de imágenes más grandes, un mejor manejo de resolución y formatos de salida que funcionan sin problemas con los marcos de interfaz de usuario existentes, como JSON. Y si se ha mantenido al día con los trabajos de investigación de AI de Apple, es posible que esté pensando en una investigación reciente de si los modelos de IA no solo podían entender, sino también anticipar las consecuencias de las acciones en la aplicación. Reúna a los dos, y las cosas comienzan a ser … interesantes, especialmente si confía en la accesibilidad para navegar en sus dispositivos, o simplemente desea que el sistema operativo pueda manejar de forma autónoma las partes más complicadas de sus flujos de trabajo en la aplicación. Ofertas de unidad externa en Amazon FTC: utilizamos ingresos que ganan enlaces de afiliados para automóviles. Más.