DEV Community

Cover image for Zero-ETL Pipeline: Relájate y deja que los datos fluyan.
Elizabeth Fuentes L for AWS Español

Posted on • Edited on • Originally published at linkedin.com

Zero-ETL Pipeline: Relájate y deja que los datos fluyan.

Visualización de datos en tiempo real con OpenSearch y Amazon DynamoDB: A Zero-ETL Pipeline

🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube
Linktr

Amazon OpenSearch Service y Amazon DynamoDB proporcionan una poderosa combinación para la visualización de datos en tiempo real sin la necesidad de procesos complejos de Extracción, Transformación y Carga (ETL). Este repositorio introduce una pila de AWS Cloud Development Kit (CDK) que despliega una arquitectura sin servidor para la ingesta eficiente de datos en tiempo real utilizando el servicio OpenSearch Ingestion (OSIS).

Al aprovechar OSIS, puedes procesar y transformar datos de los streams de DynamoDB directamente en OpenSearch, permitiendo la visualización y análisis casi instantáneos. Esta canalización sin ETL elimina la sobrecarga de los flujos de trabajo tradicionales de transformación de datos, permitiéndote enfocarte en obtener información de tus datos.

El stack de CDK aprovisiona componentes clave como Amazon Cognito para autenticación, roles de IAM para acceso seguro, un dominio de OpenSearch para indexación y visualización, un bucket de S3 para respaldos de datos y una tabla de DynamoDB como fuente de datos. OpenSearch Ingestion actúa como el componente central, procesando eficientemente los datos basados en una configuración declarativa YAML.

Requisitos previos

💰 Costo para completar:

¿Cómo funciona esta aplicación?

diagrama

El flujo comienza con datos almacenados en Amazon DynamoDB, una base de datos NoSQL administrada y escalable. Luego, los datos se transmiten a Amazon S3.

Desde los datos en S3, se indexan utilizando Amazon OpenSearch, un servicio que permite la búsqueda y análisis en tiempo real en grandes volúmenes de datos. OpenSearch indexa los datos y los hace fácilmente accesibles para consultas rápidas.

El siguiente componente es Amazon Cognito, un servicio que permite la identidad del usuario y la gestión de acceso. Cognito autentica y autoriza a los usuarios para acceder al Panel de OpenSearch.

Se utiliza AWS Identity and Access Management Roles para definir roles y permisos de acceso.

Para crear una canalización de ingesta de OpenSearch, necesitas un rol de IAM que la canalización asumirá para escribir datos en el sumidero (un dominio de OpenSearch Service o una colección de OpenSearch Serverless). El ARN del rol debe incluirse en la configuración de la canalización. El sumidero, que puede ser un dominio de OpenSearch Service (ejecutando OpenSearch 1.0+ o Elasticsearch 7.4+) o una colección de OpenSearch Serverless, debe tener una política de acceso que otorgue los permisos necesarios al rol de canalización de IAM. (Otorgar acceso a las canalizaciones de ingesta de Amazon OpenSearch a dominios - Otorgar acceso a las canalizaciones de ingesta de Amazon OpenSearch a colecciones).

OpenSearch Ingestion requiere permisos específicos de IAM para crear canalizaciones, incluyendo osis:CreatePipeline para crear una canalización, osis:ValidatePipeline para validar la configuración de la canalización, y iam:PassRole para pasar el rol de canalización a OpenSearch Ingestion, permitiéndole escribir datos en el dominio. El permiso iam:PassRole debe otorgarse en el recurso de rol de canalización (especificado como sts_role_arn en la configuración de la canalización) o establecerse en * si se utilizarán diferentes roles para cada canalización.

El enlace principal de esta configuración de canalización es un formato de archivo YAML que conecta la tabla DynamoDB con OpenSearch:

La configuración de la canalización se realiza a través de un formato de archivo YAML como:

version: "2"
dynamodb-pipeline:
  source:
    dynamodb:
      acknowledgments: true
      tables:
        # REQUIRED: Supply the DynamoDB table ARN and whether export or stream processing is needed, or both
        - table_arn: "DYNAMODB_TABLE_ARN"
          # Remove the stream block if only export is needed
          stream:
            start_position: "LATEST"
          # Remove the export block if only stream is needed
          export:
            # REQUIRED for export: Specify the name of an existing S3 bucket for DynamoDB to write export data files to
            s3_bucket: "<<my-bucket>>"
            # Specify the region of the S3 bucket
            s3_region: "<<REGION_NAME>"
            # Optionally set the name of a prefix that DynamoDB export data files are written to in the bucket.
            s3_prefix: "ddb-to-opensearch-export/"
      aws:
        # REQUIRED: Provide the role to assume that has the necessary permissions to DynamoDB, OpenSearch, and S3.
        sts_role_arn: "<<STS_ROLE_ARN>>"
        # Provide the region to use for aws credentials
        region: "<<REGION_NAME>>"
  sink:
    - opensearch:
        # REQUIRED: Provide an AWS OpenSearch endpoint
        hosts:
          [
            "<<https://OpenSearch_DOMAIN>>"
          ]
        index: "<<table-index>>"
        index_type: custom
        document_id: "${getMetadata(\"primary_key\")}"
        action: "${getMetadata(\"opensearch_action\")}"
        document_version: "${getMetadata(\"document_version\")}"
        document_version_type: "external"
        aws:
          # REQUIRED: Provide a Role ARN with access to the domain. This role should have a trust relationship with osis-pipelines.amazonaws.com
          sts_role_arn: "<<STS_ROLE_ARN>>"
          # Provide the region of the domain.
          region: "<<REGION_NAME>>"
Enter fullscreen mode Exit fullscreen mode

El archivo de configuración de la canalización se crea automáticamente en la pila CDK junto con todos los demás recursos.

¡Construyamos!

Paso 1: Configuración de la APP

Clonar el repositorio

git clone https://github.com/build-on-aws/realtime-dynamodb-zero-etl-opensearch-visualization
Enter fullscreen mode Exit fullscreen mode

Ir a:

cd dashboard
Enter fullscreen mode Exit fullscreen mode

Cree el Entorno Virtual: siguiendo los pasos en el README

python3 -m venv .venv
Enter fullscreen mode Exit fullscreen mode
source .venv/bin/activate
Enter fullscreen mode Exit fullscreen mode

para windows:

.venv\Scripts\activate.bat
Enter fullscreen mode Exit fullscreen mode

Instale los Requisitos:

pip install -r requirements.txt
Enter fullscreen mode Exit fullscreen mode

Sintetice la Plantilla de Cloudformation con el Siguiente Comando:

cdk synth
Enter fullscreen mode Exit fullscreen mode

✅🚀 El Despliegue:

cdk deploy
Enter fullscreen mode Exit fullscreen mode

El despliegue tomará entre 5 y 10 minutos, que es el tiempo que tarda en crearse el dominio de OpenSearch.

Cuando esté listo, verá que el estado cambia a completado:

Authentication

Para acceder a los Dashboards de OpenSearch a través de la URL de Dashboards de OpenSearch (IPv4) necesita crear un usuario en los grupos de usuarios de Amazon Cognito.

Authentication

Con el usuario creado, acceda al Dashboard y comience a experimentar la magia de Zero-ETL entre la tabla de DynamoDB y OpenSearch.

En este repositorio, creó una tabla a la que puede inyectar datos, pero también puede cambiarla Actualizando las tuberías de ingesta de Amazon OpenSearch realizando un cambio en el archivo YAML o modificando la pila CDK.

Conclusión

La combinación de Amazon OpenSearch y Amazon DynamoDB permite la visualización de datos en tiempo real sin las complejidades de los procesos ETL tradicionales. Al utilizar el Servicio de Ingesta de OpenSearch (OSIS), se puede implementar una arquitectura sin servidor que procesa y transforma eficientemente los datos de DynamoDB directamente en OpenSearch. La construcción de la aplicación con AWS CDK simplifica la configuración de componentes clave como la autenticación, el acceso seguro, la indexación, la visualización y el respaldo de datos.

Este es el contenido del blog traducido al español:

Esta solución permite a los usuarios centrarse en obtener información de sus datos en lugar de administrar la infraestructura. Ideal para paneles de control en tiempo real, análisis de registros o monitoreo de eventos de IoT, este pipeline Zero-ETL ofrece un enfoque escalable y ágil para la ingesta y visualización de datos. Se recomienda clonar el repositorio, personalizar la configuración e implementar la pila en AWS para aprovechar el poder de OpenSearch y DynamoDB para la visualización de datos en tiempo real.

🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube
Linktr

Top comments (0)