Si has estado prestando atención durante los últimos dos años, probablemente hayas notado que estamos en medio de una revolución silenciosa en la industria de la Inteligencia Artificial (IA). Este cambio se debe al avance de los grandes modelos fundamentales.
Si prefieres una explicación más visual o simplemente quieres profundizar en este emocionante tema, te invito a ver el siguiente video que he preparado:
Ahora, continuemos con el artículo.
Si estás en el campo de la IA, probablemente hayas oído o estés familiarizado con nombres como GPT, Bert y Dali. Pero hoy, quiero presentarte otro que se está uniendo a la lista. Los Servicios Cognitivos de Microsoft Azure para Visión que actualmente han cambiado al nombre de Azure AI Vision están lanzando su propio gran modelo fundamental por primera vez, al que han llamado "Florence".
¿Qué es Florence?
Florence es un modelo verdaderamente asombroso. Alimentado por una gran cantidad de datos (miles de millones de pares de texto e imágenes), destaca por su capacidad multimodal. Esto significa que combina habilidades de lenguaje y visión, permitiendo cosas increíbles en el campo de la visión por computadora, como recuperar imágenes a partir de texto y también generar descripciones detalladas.
Antes, si querías entrenar un modelo de visión, necesitabas un conjunto de datos específico para cada tarea. Por ejemplo, si querías entrenar un modelo para la detección de objetos, necesitabas etiquetar los datos para esa tarea y entrenar un modelo específico para ella.
Florence cambia el juego
Con Florence, puedes entrenar un gran modelo con un conjunto de datos amplio y luego adaptarlo a tareas individuales utilizando lo que se conocen como "modelos de adaptación".
Estos modelos de adaptación se ajustan con datos adicionales para cada tarea específica, abriendo un sinfín de posibilidades, desde la clasificación y recuperación de imágenes hasta la detección de objetos, la segmentación y la generación de subtítulos.
El entrenamiento de Florence también es impresionante. No solo utiliza etiquetas de imágenes, sino que se entrena con pares de imágenes y texto, permitiendo un aprendizaje más profundo y enriquecedor. Este par de imagen y texto se procesa mediante aprendizaje contrastivo, que es una forma de aprendizaje auto-supervisado.
El futuro de la IA con Florence
El Proyecto Florence es una clara demostración del impresionante progreso que estamos viendo en el campo de la IA. Con su capacidad para entender y procesar tanto texto como imágenes, Florence está abriendo un nuevo universo de posibilidades para el futuro de la Inteligencia Artificial. Y sinceramente, es extremadamente emocionante.
Ahora hablemos de algunas características.
Agregar subtítulos a imágenes
Empecemos con la capacidad de Florence para agregar subtítulos a imágenes. Esta función ya estaba disponible en el Servicio de Visión Cognitiva de Azure, que alcanzó la paridad humana en la generación de subtítulos para imágenes en 2020. Ahora, gracias al Gran Modelo Fundamental, esta habilidad sigue mejorando significativamente.
En la versión 3.2 del servicio de API, que era anterior al Modelo Fundamental, esta imagen me dio el resultado: "un hombre parado frente a un grupo de personas con ropa blanca".
Sin embargo, con la nueva actualización, el subtítulo cambió a "un hombre parado frente a un grupo de soldados stormtroopers blancos". Esto es gracias al reconocimiento del mundo abierto ofrecido por Florence.
El reconocimiento del mundo abierto significa que el modelo es capaz de reconocimiento de cero disparos, ya que ha sido entrenado con una gran cantidad de datos que le permite reconocer millones de categorías de objetos en cualquier lugar, desde especies y monumentos hasta logotipos, productos, celebridades y mucho más...
Agregar subtítulos densos a imágenes
Cuando subo una imagen, el servicio no solo proporciona una descripción completa de la imagen, sino también la descripción de cada una de las regiones de la imagen, detallando hasta diez descripciones de regiones y proporcionando las cajas delimitadoras que rodean un objeto en estas regiones.
Lo grandioso de esto es que no solo detecta objetos, sino que describe acciones, como un niño pateando un balón de fútbol. Nos muestra hasta diez descripciones de regiones detectadas en la imagen y también la caja delimitadora, que sería el rectángulo que rodea un objeto en una de estas regiones de la imagen.
Las API que utiliza para extraer este conocimiento de las imágenes son las API de análisis de imágenes.
He creado una aplicación de consola en .NET usando C# para demostrar las poderosas capacidades del modelo Florence. Esta aplicación te ofrece una experiencia práctica con los Servicios Cognitivos de Azure para Visión. Puedes explorar diferentes características, como agregar subtítulos a imágenes y subtítulos densos.
Para aquellos interesados en probar este servicio usando la aplicación de consola, por favor visiten mi repositorio de Github: Azure-ComputerVision-ImageAnalysis. Aquí, encontrarán el código necesario e instrucciones para comenzar.
Buscar fotos con recuperación de imágenes
Por último, quiero mostrarte una de mis capacidades favoritas, que es Buscar fotos con recuperación de imágenes. Aquí tenemos conjuntos de imágenes que puedes usar para buscar con lenguaje natural, incluso si no has iniciado sesión con tu cuenta de Azure.
Una vez que has iniciado sesión, tienes la opción de probarlo con tus propias imágenes creando una colección personalizada. Como ejemplo, utilicé algunas fotos de mi oficina, que muestran interacciones con varios objetos. Este modelo, debido a su extenso entrenamiento, es capaz de reconocer y razonar sobre una amplia gama de objetos y escenas. Incluso sin etiquetas explícitas, el modelo puede identificar y ubicar elementos de interés dentro de las imágenes.
El portal Estudio de Visión te permite subir fotos aleatorias y realizar búsquedas sin ningún esfuerzo adicional. El modelo se encarga de todo, desde extraer vectores de tus imágenes, ya estén en la nube o en tu disco local, hasta procesar consultas de texto y calcular la similitud basada en la distancia del coseno entre los vectores de texto e imagen. Este nivel de similitud determina la relevancia de los resultados de búsqueda.
Espero que esta explicación haya sido de gran ayuda. Siéntase libre de dejar sus comentarios y preguntas.
👋Hasta la próxima, comunidad
Top comments (0)