¡Hola! En este post quiero compartirles como poder usar un servicio de Amazon Web Services que me gusta mucho, porque es dinámico, ágil y muy fácil de usar.
Si les interesa aprender o desarrollarse en datos, Amazon Athena es el servicio para ustedes.
¿Qué es Amazon Athena?
Amazon Athena es un servicio de Amazon Web Services que permite realizar consultas de forma interactiva, el cual además permite analizar datos desde S3 (Amazon Simple Storage Service), por lo que no es necesario configurar bases de datos o servidores.
La forma de trabajar con Amazon Athena es mediante consultas en SQL (Structured Query Language). Ideal para quienes trabajan o deseen trabajar como analistas de datos y ya cuentan con los conocimientos en este lenguaje.
Un beneficio importante de Athena es que tiene un bajo costo, ya que solo se paga por las consultas ejecutadas, sin asumir gastos a largo plazo.
Una vez ya entendiendo qué es Amazon Athena, querrás saber de qué forma comenzar a jugar con este servicio, así que manos a la obra...
1. Crear un Bucket en S3
Lo primero para usar Athena es tener los datos para poder trabajar. Si no tienes algún dataset a mano, puedes obtener alguno interesante en Kagglesobre algún tema que te interese. En mi caso, utilizaré un dataset sobre las personas que estuvieron en el Titanic, ya que me gusta mucho.
Ya teniendo el dataset, debes ingresar al servicio de Amazon S3 en tu cuenta de AWS.
Posteriormente, determinan un nombre a su bucket y la región en la que desean que se cree. En mi caso seleccioné us-east-1
Una vez creado el bucket se darán cuenta que está vacío, por lo que tienen que cargar el objeto, que en este caso sería el dataset con el que van a trabajar:
Una vez que está cargado... ¡Felicitaciones! Ahora se viene la parte entretenida
2. Conecta el bucket en Athena
Ingresa al servicio de Amazon Athena y selecciona la primera opción "Query your data".
Ingresarás a un editor de SQL, en donde que a la izquierda aparecen tablas y vistas, en donde hay una opción para crear. Seleccionala y donde dice "Crear una tabla desde una fuente de datos", selecciona S3 bucket data
Se abrirá una pantalla para crear la tabla, en donde debes indicar el nombre y lo más importante: la dirección en donde se encuentra tu dataset.
En el formato de datos, recuerda indicar el tipo de dataset y en detalles de columnas, deberás poner los nombres de cada columna de tu dataset, indicando el tipo de dato.
3. ¡Comienza a entretenerte con Athena!
Acá ya viene la parte entretenida. Selecciona la tabla que ya subiste, apreta los 3 puntos y haz clic en
SELECT * FROM "analytics"."dataset_titanic" limit 10;
Ahora puedes comenzar a crear consultas con la tabla que tengas. Crearé algunas consultas sencillas a continuación con SQL.
N° total de mujeres en el Titanic:
SELECT COUNT(sex) FROM "analytics"."dataset_titanic"
WHERE (sex) = 'female';
Mujeres mayores de 60 años:
personas mujeres mayores de 60 años
SELECT * FROM "analytics"."dataset_titanic"
WHERE (age) = '60';
Personas que pagaron el ticket más caro:
SELECT name, middle_name, fare FROM "analytics"."dataset_titanic"
ORDER BY fare DESC;
Personas que sobrevivieron mayores a 30 años:
SELECT * FROM "analytics"."dataset_titanic"
WHERE (survived) = '1' AND (age) >= '30'
ORDER BY age ASC;
Bueno, espero que les haya gustado esta introducción a Amazon Athena y les motive a aprender más sobre este gran servicio y a meter las manos en la masa con algún dataset que les guste.
¡Nos vemos!
Top comments (0)