DEV Community

Cover image for Cargar datos en Google Colab para Machine Learning
Ulises Serrano
Ulises Serrano

Posted on

Cargar datos en Google Colab para Machine Learning

Como parte de mi posgrado en #IA y #ML estoy ocupando Google Colab que es una excelente alternativa a Jupyter Lab, principalmente porque es una interfaz web disponible desde cualquier navegador. El día de hoy en este articulo te voy a enseñar a como cargar datos desde 3 fuentes.

  1. Desde un archivo de tu computadora
  2. Desde un archivo de Google Drive
  3. Desde la plataforma Kaggle una plataforma libre en donde puedes encontrar conjuntos de datos (datasets) para generar modelos de prueba. Lo que más me gusto de ocupar Google Colab es la simplicidad con la que puedes empezar a realizar integraciones, puedes instalar paquetes, librerías, acceso a carpetas, básicamente un sistema operativo en la nube para hacer procesamiento de datos. Cremita de la buena. Voy a ir poniendo partes de código por bloques ya que en Colab así esta diseñada la plataforma además de que así te aseguras de que cada parte de tu código funcione de manera adecuada.
  4. Cargar un archivo desde tu computadora

Ejemplo de carga de archivo

La primera parte importamos las librerias necesarias como lo es pandas parara el procesamiento de datos, files para importar el archivo e IO para leer el contenido del archivo. Despues ocupamos files para que nos salga una venta y seleccionemos el dataset, se lo pasamos a IO para que lea el contenido del archivo y por ultimo a pandas para que lo podamos manipular, obtener datos importantes o simplemente ver el contenido. Por ultimo mostramos el contenido simplemente con poner el nombre de la variable.

  1. Cargar desde Google Drive Una de las ventajas de ocupar la plataforma de Google es que la integración con sus otras plataformas se vuelve sencilla, en este caso lo único que tenemos que hacer es dar permisos a Colab para que tenga acceso a nuestros archivos dentro de Drive. La primera parte importamos las librerías necesarias en este caso pandas y drive de Gooogle. Montamos el volumen de drive dentro de Colab acá nos solicitará permisos para que la aplicación tenga acceso a nuestros archivos, se otorga y listo.

Ejemplo de carga Drive

Obtenemos el ID del archivo que se encuentra dentro de la URL cuando le damos en compartir regularmente es una cadena alfanumérica de tamaño considerable, este ID se concatena con la URL de acceso a drive como se muestra en la imagen, en la parte final se pasa esa link directo a Pandas para que lea el contenido y lo guarde en una varible, por ultimo mostramos el contenido de la variable. Kaggle es una plataforma libre en donde están disponibles cientos de conjuntos de entrenamiento para que los puedas ocupar ya sea para pruebas o realmente entrenar modelos de ML La primera parte importamos las librerías necesarias files y pandas, posteriormente instalamos el paquete de Kaggle por medio de pip. Dentro de Kaggle es necesario generar un token de acceso que lo tenemos que cargar por medio de files.

Ejemplo carga desde Kaggle

Cargado el arcchivo de toke que esta dentro de un JSON lo movemos a una carpeta que se llama kaggle para que tengamos acceso directo a los datasets. Una vez hecho esto podemos importar los datasets directamente con el nombre. Se descarga en .zip y lo desempaquetamos con unzip ya desempaquetado le pasamos el nombre del archivo para que pandas lo pueda leer y por ultimo mostramos el contenido. Si este articulo te gusto o aprendiste algo nuevo te agradecería que me siguieras y compartieras mi contenido, gracias.

Top comments (0)