Todas las cosas que Comprehend, Rekognition, Textract, Polly, Transcribe y otros pueden hacer.

#spanish #ai #aws #machinelearning

🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube
Linktr

✅ Blog original: All the things that Amazon Comprehend, Rekognition, Textract, Polly, Transcribe, and Others Do

Los desarrolladores, aquellos que brindan soluciones a problemas informáticos, basan procedimientos, programan y mantienen soluciones, son programadores, pero eso no los convierte en expertos en todo lo relacionado con el código, como es el caso de crear funciones dependientes de ML, donde es necesario estar familiarizados con los modelos y el entrenamiento de algoritmos, lo cual no es de conocimiento común.

Hay algunas API listas para usar que llaman a modelos existentes previamente entrenados para cumplir funciones de ML sin necesidad de conocimientos de ML y, además, mantienen segura la información que se comparte con ellos.

A continuación, voy a hablarte de algunos servicios específicos de API de Machine Learning y de cuatro casos de uso para que te familiarices con ellos y dejes volar tu imaginación.

¿Cómo funcionan las API de ML-Functions listas para usar? Solo tienes que seguir 3 sencillos pasos:

Define el input, la ubicación del objeto en un bucket o texto de Amazon S3.
Invoca la API mediante la entrada.
Output en formato json.

Echemos un vistazo a las API

En AWS hay varios servicios de ML y AI
que te permiten acelerar su adopción en las aplicaciones, desde las que proporcionan una infraestructura para entrenar tus propios modelos hasta las que están listas para usarse como llamadas a la API pre-entrenadas, veamos algunos de los segundos:

Tipos de APIs	Que puedes hacer	Nombre del servicio
🔎 Analisis de Imagenes (.png, .jpg) /videos (.mp4)	Label detection (predefined or custom) Propiedades y moderación de imágenes. Detección, comparación y análisis faciales. Búsqueda de rostros People paths. Equipo de protección personal Reconocimiento de celegridades. Texto en imágenes Contenido inapropiado y/u ofensivo.	Amazon Rekognition
🔎 Detección y análisis de texto en documentos (PNG, JPG, PDF or TIFF)	Procesa documentos individuales o agrupados. Detecta texto mecanografiado y manuscrito. Reconozca documentos, como informes financieros, registros médicos, documentos de identidad (licencias de conducir y pasaportes) y formularios de impuestos. Extraiga texto, formularios y tablas de documentos con datos estructurados.	Amazon Textract
🔎 Natural Language Processing (NLP) y analisis de texto.	Procesa documentos y extrae información como: Entities Eventos Frases claves Lenguaje dominante Sentimientos Sentimiento dirigido Análisis sintáctico. Clasificación personalizada y reconocimiento de entidades. Gestión de modelos personalizados.	Amazon comprehend
🔎 Conversión de texto a voz	Soporta varios idiomas e incluye una variedad de voces realistas. Incluye una serie de voces Neural Text-to-Speech (NTTS), ofreciendo mejoras revolucionarias en la calidad de la voz a través de un nuevo enfoque de aprendizaje automático, ofreciendo así a los clientes las voces de conversión de texto a voz más naturales y humanas posibles. LA tecnología Neural TTS también es compatible con el estilo de hablar de un presentador de noticias que se adapta a los casos de uso de la narración de noticias.	Amazon Polly
🔎 Conversión de voz a texto	Convierte audio a texto con (estos formatos soportados) Transcribe contenido multimedia en tiempo real (streaming) o puede transcribir archivos multimedia ubicados en un bucket de Amazon S3 (bach: por lotes). Mejora la precisión para su caso de uso específico con language customization, puedes filtrar el contenido para garantizar la privacidad del cliente o el idioma apropiado para la audiencia, analizar el contenido en audio multicanal y dividir la voz de los hablantes individuales.	Amazon Transcribe
🔎 Traducción	Traduce documentos de texto no estructurado (UTF-8) o cree aplicaciones que funcionen en multiples idiomas	Amazon Translate

🚀 Casos de uso

La mejor manera de aprender a programar es resolviendo problemas mediante el desarrollo de código, lo mismo ocurre cuando quieres aprender a usar un servicio, necesitas usarlo para aprender. Estos cuatro casos de uso son problemas reales (e inventados) que resolví mientras aprendía.

Crea subtítulos y tradúcelos al idioma que desees ⏯️ 🍿.

Si te apasiona proporcionar vídeo con herramientas para que otros aprendan, querrás llegar al mayor número de personas posible, y el idioma es una barrera que puedes eliminar con esta aplicación.

Sube un video en formato .mp4 a unAmazon s3 bucket.
Una Amazon Lambda Function sealiza la llamada a la API de Transcribe.
El archivo de subtitulos es descargado en su idioma original en un Bucket de S3.
Una Lambda Function realiza la llamada a la API de Translate.
El archivo de subtítulos en el nuevo idioma se descarga en S3 Bucket.

Código de la solución.

Detección de entidades y sentimientos en un documento 🔎 📄.

Hay personas que tienen montañas de papeles en sus casas, cartas de amantes anteriores, exámenes médicos, recuerdos del colegio de sus hijos, bancos, etc. ¿Qué te parece guardarlo pulcramente en la nube? Intenta aprender sobre Textract y Comprehend con esta aplicación.

Sube el documento (PNG, JPG, PDF o TIFF) en un S3 Bucket.
Una Lambda Function realiza la llamada a la API de Textract.
Con la respuesta de Textract, Lambda Function realiza la llamada a la API Comprehend.
Una Lambda Function realiza la llamada a la API de traducción.
La respuesta se guarda en un Bucket de S3.

Código de la solución

Polly habla! 🦜

Tenía curiosidad por saber cómo sonaba un chino hablando italiano y, como Polly tiene voces nativas para cada idioma, creé este cuaderno para jugar. 😂.

Desde un Jupyter Notebook, haga la llamada a la API Polly.
Polly almacena el resultado en un Bucket de S3.
Recupera el audio.

Código de la solución

Video content moderation ⏯️ 🔫 🚬

Soy fan de las películas de acción y quería probar Rekognition con el tráiler de Die Hard 1, así que creé esta aplicación y ¡guau! cada dataframe es pura violencia 🫣... Te invito a que lo pruebes con un tráiler de tu película favorita.

Sube un video en formato .mp4 a un Bucket de S3.
Una Lambda Function hace la llamada a la API de Rekognition.
Una vez finalizada la revisión del vídeo, una nueva función de Lambda recupera el resultado y lo almacena en un bucket de S3.

Código de la solución

Conclusión

Ahora has aprendido que puedes utilizar el AI/ML como una llamada a la API para analizar imágenes y vídeos, detectar y analizar texto en documentos escaneados, analizar texto mediante la PNL para extraer opiniones del idioma dominante y mucho más. Además de poder convertir texto en voz y viceversa, y disponer de un traductor de idiomas al alcance de una llamada a la API.

Esto es solo una pequeña parte de lo que puedes crear al impulsar las aplicaciones AI-ML al alcance de una llamada a la API.

Seguro que tienes un problema real o inventado que te gustaría resolver utilizando alguno de estos servicios y si no es así te dejo estos enlaces para que sigas experimentando y aprendiendo: