¡Es hora de celebrar a las mujeres increíbles que lideran el camino en IA! Nomine a sus líderes inspiradoras para los premios Women in AI Awards de VentureBeat hoy antes del 18 de junio. Obtenga más información Hoy, el equipo de Azure AI de Microsoft lanzó un nuevo modelo de base de visión llamado Florence-2 en Hugging Face. Disponible bajo una licencia permisiva del MIT, el modelo puede manejar una variedad de tareas de visión y lenguaje visual utilizando una representación unificada basada en indicaciones. Viene en dos tamaños (parámetros 232M y 771M) y ya destaca en tareas como subtítulos, detección de objetos, conexión a tierra visual y segmentación, con un rendimiento igual o mejor que muchos modelos de visión de gran tamaño que existen. Si bien aún no se ha probado el rendimiento del modelo en el mundo real, se espera que el trabajo brinde a las empresas un enfoque único y unificado para manejar diferentes tipos de aplicaciones de visión. Esto ahorrará inversiones en modelos de visión separados para tareas específicas que no van más allá de su función principal, sin un ajuste exhaustivo. ¿Qué hace que Florence-2 sea única? Hoy en día, los modelos de lenguajes grandes (LLM) se encuentran en el centro de las operaciones empresariales. Un solo modelo puede proporcionar resúmenes, redactar copias de marketing e incluso gestionar el servicio de atención al cliente en muchos casos. El nivel de adaptabilidad entre dominios y tareas ha sido asombroso. Pero este éxito también ha dejado a los investigadores preguntándose: ¿pueden los modelos de visión, que en gran medida se han centrado en tareas específicas, hacer lo mismo? La inscripción para VB Transform 2024 está abierta Únase a los líderes empresariales en San Francisco del 9 al 11 de julio para nuestro evento emblemático de IA. Conéctese con pares, explore las oportunidades y desafíos de la IA generativa y aprenda cómo integrar aplicaciones de IA en su industria. Regístrese ahora En esencia, las tareas de visión son más complejas que el procesamiento del lenguaje natural (PLN) basado en texto. Exigen capacidad de percepción integral. Esencialmente, para lograr una representación universal de diversas tareas de visión, un modelo debe ser capaz de comprender datos espaciales en diferentes escalas, desde conceptos amplios a nivel de imagen, como la ubicación del objeto, hasta detalles detallados de píxeles, así como detalles semánticos como la alta definición. subtítulos de nivel hasta descripciones detalladas. Cuando Microsoft intentó resolver esto, encontró dos obstáculos clave: la escasez de conjuntos de datos visuales anotados de manera integral y la ausencia de un marco de preentrenamiento unificado con una arquitectura de red singular que integrara la capacidad de comprender la jerarquía espacial y la granularidad semántica. Para solucionar este problema, la empresa utilizó primero modelos especializados para generar un conjunto de datos visuales llamado FLD-5B. Incluía un total de 5.400 millones de anotaciones para 126 millones de imágenes, que cubrían detalles desde descripciones de alto nivel hasta regiones y objetos específicos. Luego, utilizando estos datos, entrenó a Florence-2, que utiliza una arquitectura de secuencia a secuencia (un tipo de red neuronal diseñada para tareas que involucran datos secuenciales) que integra un codificador de imágenes y un codificador-decodificador multimodal. Esto permite que el modelo maneje diversas tareas de visión, sin requerir modificaciones arquitectónicas específicas de la tarea. «Todas las anotaciones en el conjunto de datos, FLD-5B, están estandarizadas uniformemente en resultados textuales, lo que facilita un enfoque unificado de aprendizaje multitarea con optimización consistente con la misma función de pérdida que el objetivo», escribieron los investigadores en el artículo que detalla el modelo. “El resultado es un modelo básico de visión versátil capaz de realizar una variedad de tareas… todo dentro de un único modelo regido por un conjunto uniforme de parámetros. La activación de tareas se logra a través de indicaciones textuales, lo que refleja el enfoque utilizado por los modelos de lenguaje grandes”. Rendimiento mejor que los modelos más grandes Cuando se le solicitan imágenes y entradas de texto, Florence-2 maneja una variedad de tareas, incluida la detección de objetos, subtítulos, conexión visual a tierra y respuesta visual a preguntas. Más importante aún, ofrece esto con una calidad equivalente o mejor que muchos modelos más grandes. Por ejemplo, en una prueba de subtítulos de disparo cero en el conjunto de datos COCO, las versiones 232M y 771M de Florence superaron al modelo de lenguaje visual Flamingo del parámetro 80B de Deepmind con puntuaciones de 133 y 135,6, respectivamente. Incluso lo hicieron mejor que el modelo Kosmos-2 específico de conexión a tierra visual de Microsoft. Cuando se ajustó con datos públicos anotados por humanos, Florence-2, a pesar de su tamaño compacto, pudo competir estrechamente con varios modelos especializados más grandes en tareas como la respuesta visual a preguntas. «La columna vertebral Florence-2 previamente entrenada mejora el rendimiento en tareas posteriores, por ejemplo, la detección de objetos COCO y la segmentación de instancias, y la segmentación semántica ADE20K, superando los modelos supervisados ​​y autosupervisados», señalaron los investigadores. «En comparación con los modelos previamente entrenados en ImageNet, el nuestro mejora la eficiencia del entrenamiento 4 veces y logra mejoras sustanciales de 6,9, 5,5 y 5,9 puntos en los conjuntos de datos COCO y ADE20K». A partir de ahora, las versiones preentrenadas y ajustadas de Florence-2 232M y 771M están disponibles en Hugging Face bajo una licencia permisiva del MIT que permite la distribución y modificación sin restricciones para uso comercial o privado. Será interesante ver cómo los desarrolladores lo utilizarán y aliviarán la necesidad de modelos de visión separados para diferentes tareas. Los modelos pequeños e independientes de las tareas no solo pueden ahorrar a los desarrolladores la necesidad de trabajar con diferentes modelos, sino que también reducen los costos de computación en un margen significativo. VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada diariamente. Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirte. Consulte más boletines de VB aquí. Ocurrió un error.