DEV Community

Cover image for Todas las cosas que Comprehend, Rekognition, Textract, Polly, Transcribe y otros pueden hacer.
Elizabeth Fuentes L for AWS Español

Posted on • Updated on

Todas las cosas que Comprehend, Rekognition, Textract, Polly, Transcribe y otros pueden hacer.

🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube
Linktr

Blog original: All the things that Amazon Comprehend, Rekognition, Textract, Polly, Transcribe, and Others Do

Los desarrolladores, aquellos que brindan soluciones a problemas informáticos, basan procedimientos, programan y mantienen soluciones, son programadores, pero eso no los convierte en expertos en todo lo relacionado con el código, como es el caso de crear funciones dependientes de ML, donde es necesario estar familiarizados con los modelos y el entrenamiento de algoritmos, lo cual no es de conocimiento común.

Hay algunas API listas para usar que llaman a modelos existentes previamente entrenados para cumplir funciones de ML sin necesidad de conocimientos de ML y, además, mantienen segura la información que se comparte con ellos.

A continuación, voy a hablarte de algunos servicios específicos de API de Machine Learning y de cuatro casos de uso para que te familiarices con ellos y dejes volar tu imaginación.

¿Cómo funcionan las API de ML-Functions listas para usar? Solo tienes que seguir 3 sencillos pasos:

  1. Define el input, la ubicación del objeto en un bucket o texto de Amazon S3.
  2. Invoca la API mediante la entrada.
  3. Output en formato json.

Diagram AIML like API in your APP"

Echemos un vistazo a las API

En AWS hay varios servicios de ML y AI
que te permiten acelerar su adopción en las aplicaciones, desde las que proporcionan una infraestructura para entrenar tus propios modelos hasta las que están listas para usarse como llamadas a la API pre-entrenadas, veamos algunos de los segundos:

Tipos de APIs Que puedes hacer Nombre del servicio
🔎 Analisis de Imagenes (.png, .jpg) /videos (.mp4)
  • Label detection (predefined or custom)
  • Propiedades y moderación de imágenes.
  • Detección, comparación y análisis faciales.
  • Búsqueda de rostros
  • People paths.
  • Equipo de protección personal
  • Reconocimiento de celegridades.
  • Texto en imágenes
  • Contenido inapropiado y/u ofensivo.
Amazon Rekognition
🔎 Detección y análisis de texto en documentos (PNG, JPG, PDF or TIFF)
  • Procesa documentos individuales o agrupados.
  • Detecta texto mecanografiado y manuscrito.
  • Reconozca documentos, como informes financieros, registros médicos, documentos de identidad (licencias de conducir y pasaportes) y formularios de impuestos.
  • Extraiga texto, formularios y tablas de documentos con datos estructurados.
Amazon Textract
🔎 Natural Language Processing (NLP) y analisis de texto. Procesa documentos y extrae información como:
  • Entities
  • Eventos
  • Frases claves
  • Lenguaje dominante
  • Sentimientos
  • Sentimiento dirigido
  • Análisis sintáctico.
  • Clasificación personalizada y reconocimiento de entidades.
  • Gestión de modelos personalizados.
Amazon comprehend
🔎 Conversión de texto a voz Amazon Polly
🔎 Conversión de voz a texto
  • Convierte audio a texto con (estos formatos soportados)
  • Transcribe contenido multimedia en tiempo real (streaming) o puede transcribir archivos multimedia ubicados en un bucket de Amazon S3 (bach: por lotes).
  • Mejora la precisión para su caso de uso específico con language customization, puedes filtrar el contenido para garantizar la privacidad del cliente o el idioma apropiado para la audiencia, analizar el contenido en audio multicanal y dividir la voz de los hablantes individuales.
Amazon Transcribe
🔎 Traducción Traduce documentos de texto no estructurado (UTF-8) o cree aplicaciones que funcionen en multiples idiomas Amazon Translate

🚀 Casos de uso

La mejor manera de aprender a programar es resolviendo problemas mediante el desarrollo de código, lo mismo ocurre cuando quieres aprender a usar un servicio, necesitas usarlo para aprender. Estos cuatro casos de uso son problemas reales (e inventados) que resolví mientras aprendía.

Si te apasiona proporcionar vídeo con herramientas para que otros aprendan, querrás llegar al mayor número de personas posible, y el idioma es una barrera que puedes eliminar con esta aplicación.

Create subtitles and translate them into the language you want"

  1. Sube un video en formato .mp4 a unAmazon s3 bucket.
  2. Una Amazon Lambda Function sealiza la llamada a la API de Transcribe.
  3. El archivo de subtitulos es descargado en su idioma original en un Bucket de S3.
  4. Una Lambda Function realiza la llamada a la API de Translate.
  5. El archivo de subtítulos en el nuevo idioma se descarga en S3 Bucket.

Código de la solución.

Hay personas que tienen montañas de papeles en sus casas, cartas de amantes anteriores, exámenes médicos, recuerdos del colegio de sus hijos, bancos, etc. ¿Qué te parece guardarlo pulcramente en la nube? Intenta aprender sobre Textract y Comprehend con esta aplicación.

Detecting entities and sentiment from a document"

  1. Sube el documento (PNG, JPG, PDF o TIFF) en un S3 Bucket.
  2. Una Lambda Function realiza la llamada a la API de Textract.
  3. Con la respuesta de Textract, Lambda Function realiza la llamada a la API Comprehend.
  4. Una Lambda Function realiza la llamada a la API de traducción.
  5. La respuesta se guarda en un Bucket de S3.

Código de la solución

Tenía curiosidad por saber cómo sonaba un chino hablando italiano y, como Polly tiene voces nativas para cada idioma, creé este cuaderno para jugar. 😂.

Make Polly Talk"

  1. Desde un Jupyter Notebook, haga la llamada a la API Polly.
  2. Polly almacena el resultado en un Bucket de S3.
  3. Recupera el audio.

Código de la solución

Soy fan de las películas de acción y quería probar Rekognition con el tráiler de Die Hard 1, así que creé esta aplicación y ¡guau! cada dataframe es pura violencia 🫣... Te invito a que lo pruebes con un tráiler de tu película favorita.

Video content moderation"

  1. Sube un video en formato .mp4 a un Bucket de S3.
  2. Una Lambda Function hace la llamada a la API de Rekognition.
  3. Una vez finalizada la revisión del vídeo, una nueva función de Lambda recupera el resultado y lo almacena en un bucket de S3.

Código de la solución

Conclusión

Ahora has aprendido que puedes utilizar el AI/ML como una llamada a la API para analizar imágenes y vídeos, detectar y analizar texto en documentos escaneados, analizar texto mediante la PNL para extraer opiniones del idioma dominante y mucho más. Además de poder convertir texto en voz y viceversa, y disponer de un traductor de idiomas al alcance de una llamada a la API.

Esto es solo una pequeña parte de lo que puedes crear al impulsar las aplicaciones AI-ML al alcance de una llamada a la API.

Seguro que tienes un problema real o inventado que te gustaría resolver utilizando alguno de estos servicios y si no es así te dejo estos enlaces para que sigas experimentando y aprendiendo:

- Amazon Rekognition Code Samples

🚨¿Te gusto? 👩🏻‍💻 ¿Tienes comentarios?🎤 cuéntamelo todo --> acá


¡Gracias!

🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube
Linktr

Top comments (1)

Collapse
 
yahve profile image
yahve

Muy buen aporte!, muchas gracias. ahora tengo un panorama mas claro