Mi primera vez en Google I/O 2024

#googleio

Recientemente tuve la increíble oportunidad de asistir a Google I/O 2024 por primera vez en persona! Mi hermano, un experimentado Data Scientist, me sugirió compartir mis impresiones clave con su grupo de Data Science en Paraguay.

Google I/O es un conferencia anual organizado por Google conocido por su enfoque a desarrolladores de todo el mundo. Profesionales en tecnología como programadores, científicos e ingenieros asisten a esta conferencia para conocer los avances más recientes que Google ofrece en Android, Chrome, Cloud Platform y una amplia gama de otras herramientas para desarrolladores, así como para hacer networking y aprender de los expertos de la compañía. Durante el evento, se llevan a cabo diversas sesiones, paneles, talleres, laboratorios prácticos y presentaciones magistrales que abarcan las últimas innovaciones de Google en diversas áreas.

¡Google I/O es como Disneylandia para los amantes de la tecnología!
¡Me sentí como un niña de cuatro años queriendo entrar a todos los juegos y comiendo dulces todo el día! ¡Es imposible no querer verlo todo y aprender de todo!

Google I/O 2024: Lo más relevante (desde mi perspectiva)

The Gemini Era

I/O Google's version of the Eras Tour, but with fewer costume changes.
Sundar Pichai

Este año se enfocó en sus avances significativos en IA (Inteligencia Artificial), especialmente, en una serie de novedades en la familia del modelo Gemini - su revolucionario modelo IA- y en la integración de IA en todos sus productos: herramientas para desarrolladores (Google AI Studio, Android studio, etc), Gemini en Google workspace, etc.

🎶🎶Gemini, Gemini, Here And There, Gemini Everywhere 🎶 🎶
Me recuerda al Preschool Rhymes "Bubbles, Bubbles, Here And There" 🎶

Gemini, La nueva familia del modelos de IA de Google

La capacidad del modelo para comprender y generar texto, imágenes y código es impresionante. Para entender el impacto de Gemini, es fundamental comprender dos conceptos: ventana de contexto y multimodal.

Multimodal y multilingüe, significa que puede aprender de datos que van más allá del texto, o sea incluyendo comprensión de imágenes y sonidos en multilenguas. Gemini fue desarrollado multimodal desde sus inicios.

La ventana de contexto se refiere a la cantidad máxima de tokens (palabras o caracteres) que el modelo puede procesar simultáneamente para generar una respuesta. Esta limitación afecta directamente la capacidad del modelo para comprender y generar respuestas. Seria como la memoria a corto plazo de una IA para las conversaciones.

Gemini 1.5 Flash
Entrenado por 1.5 Pro a través de un proceso llamado "destilación". Este modelo es más liviano que el 1.5 Pro, diseñado para ser rápido y eficiente, a un bajo costo. Está optimizado para tareas de gran volumen y es capaz de realizar multimodal con resultadas de alta calidad.

Gemini 1.5 Pro
La clave aqui es:

Además de ampliar su ventana de contexto a 2 millones de tokens, el modelo ha mejorado exponencialmente a través de la optimización de algoritmos y datos: comprensión y análisis de imágenes y audio para videos, generación de código, conversación de múltiples turnos, razonamiento en materias complejas como matemáticas y física, etc han mejorado significativamente en Gemini 1.5 Pro.

Gemini 1.5 Pro and Flash estan disponibles en Google AI Studio y Vertex AI con hasta 1 millón de tokens. Y desarrolladores pueden registrarse a la lista de espera para probar el modelo con 2 millones de tokens.

Gemini Nano
No soy una desarrolladora móvil pero según entendí este modelo se ejecuta directamente en los dispositivos móviles, lo que garantiza una baja latencia y privacidad de datos. Además de las entradas de texto, ahora es posible incluir sonidos e imágenes. Un dato interesante es que también funciona sin red celular.
A partir de Chrome 126, Gemini Nano se integra al desktop client Chrome, habilitando funciones como "Ayúdame a escribir" para generar contenido de formato corto utilizando IA.

La familia Gemma
Gemma, la familia de modelos abiertos creada a partir de la misma investigación y tecnología utilizada para crear los modelos de Gemini, ha integrado dos miembros más al clan. Gemma2, modelo abierto para la innovación responsable en IA y PaliGemma un modelo ligero de lenguaje de visión abierta (VLM) inspirado en PaLI-3,

Proyecto Astra
Google reveló sobre el futuro de los asistentes de IA, un agente será útil en la vida cotidiana. El prototipo mostrado fue abrumador e impresionante al mismo tiempo! Este agente entiende y responde nuestro complejo mundo al igual que nosotros! Necesita comprender y recordar, para responder en tiempo real.

Herramientas de desarrollos, integración de Gemini

Code becomes content, and coders become creators
Jeanine Banks

Google I/O'24 también se centro en su misión de poner Generative AI al alcance de todos los programadores. Hoy, Gemini es accesible para nosotros en:
Android Studio, Chrome DevTools, Project IDX, Colab, VS Code, IntelliJ y Firebase

Sinceramente este tópico merece unos cuantos posts dedicados exclusivamente, asi que los tengo etiquetados como "proximamente" en mi TODO list, una vez que experimente con ellos. Sin embargo, como pincelada, les puedo compartir lo

Mi experiencia profesional se ha enfocado en el desarrollo web en su mayor parte, asi que asistí más bien a todo lo relacionado a Firebase y Google AI Studio

Firebase
Además de improvisar su logo, Firebase nos presentó avances bastante interesantes como Firebase App Hosting

Modelos Generativos en la Media

No puedo terminar este post, sin mencionar los increibles avances hechos en los modelos de generación de media.

Modelo Imagen 3,
Un modelo más fotorrealista con menos imágenes distorcionadas. Lo más increíble es que entiende prompts escritos como las personas lo hacen!, incorporando pequeños detalles.

Music AI tool
Está en mi TODO list probarlo. Me llamó mi atención ya que mi hijo tiende una tendencia hacia la música (canta, baila, inventa músicas, etc) pero mucho no pude ver en persona sobre ello.

Modelo Veo
De acuerdo al demo, Veo crea videos de alta calidad basados en los detalles dados en los prompts en una forma que es bien realista.