DEV Community

Henri de la Hoz
Henri de la Hoz

Posted on

Fundamentos de Ciencia de Datps

¿Qué es Big Data?

Hace referencia a grandes volúmenes de información. Información que representa un valor empresarial y que además es variada en su contenido y formato.

La información son datos variables (varían en su tipo y contenido) y pueden tener diferente formato, por ejemplo: valores numéricos tabulados, por lo general estos valores son los que generan las empresas a través de sus procesos internos (ventas, procesos de fabricación, etc.).

Pero también se puede obtener información valiosa en forma de texto o voz, a través de las opiniones de usuarios o clientes (En buzones de sugerencias digitales o físicos, en redes sociales, etc.).

¿Qué es Data Science?

Se puede definir DS, como el proceso desde la recolección de datos (big data) hasta la obtención de insights gracias al procesamiento de la información obtenida.

¿Qué tipo de datos existen?

  • De las personas: Se refiere a los gustos, amistades, etc. Estos permiten analizar comportamientos en masa.
  • De transacciones: Pueden ser monetarias (tarjetas crédito, débito, etc.) y no monetarias (llamadas telefónicas, etc.).
  • De navegación web: Son datos del usuario que se obtienen a través de cookies en los navegadores.
  • Machine 2 Machine: Son las que se obtienen sin intervención humana, tal vez mediante sensores de todo tipo o sistemas GPS.
  • Biométricos: Información en la sangre, huella dactilar, pupila. Este tipo de datos abre un debate ético y se debe utilizar con cuidado.

¿Qué es machine learning?

También se conoce como aprendizaje automático, es la técnica que permite el uso de un software para predecir resultados, detección de patrones y con base en ello tomar decisiones o efectuar acciones.
Ejemplos de uso de ML:

  • Detección de fraudes, a partir del comportamiento de usuarios en transacciones financieras, ML detecta patrones de usuarios que buscan hacer fraude.
  • Búsqueda Web, a partir de la búsqueda o uso de la web, se detectan patrones de acciones que el usuario ejecuta y con base en ello, darle al usuario anuncios publicitarios que le pueden interesar.
  • Anuncios en tiempo real, a medida que haces una compra, te arroja recomendaciones de otros productos que otros usuarios que han comprado lo que compraste inicialmente, también han llevado.
  • Análisis de Textos, se exploran mensajes escritos que generan los usuarios.
  • Next Best Action, entender el journey del cliente o el ciclo de vida del usuario y con base en entender en qué fase se encuentra, tratar de incentivarlo para que de el siguiente paso ideal en el customer Journey o en el ciclo de vida del usuario. ### ¿Qué es deep learning? Es un tipo de aprendizaje automático que interpreta datos más complejos, tales como imágenes fijas o en movimiento y sonidos. Estos datos por lo general los recibe el software a través de un flujo continuo de información y requiere una mayor capacidad de procesamiento y precisión en el resultado del cálculo de los modelos. ### ¿Cuáles son los roles en DS?
  • Ingeniero de Datos o Arquitecto de Datos. Se encarga de construir soluciones para la obtención de datos. Este rol puede incluir el desarrollo de APIs con conexión a bases de datos asi como a la construcción de consultas SQL para la inserción de datos. En general, este rol se encarga principalmente de facilitar la obtención de datos a través de soluciones de software. Implementa ETLs.
    • Analista BI. Se encarga de la interpretación de datos actuales, en otras palabras se enfoca en interpretar la información presente. Su rol abarca la extracción de datos, a través de consultas SQL y presentar reportes en forma de dashboard, tal vez utilizando herramientas tales como Power BI y Excel. El análiste crea las consultas SQL y sus reportes de tal manera que sean parametrizables y se pueda repetir la consulta fácilmente en un futuro.
    • Data Scientist. Utiliza los datos para estimar el futuro, incluso intentar predecirlo. Para lograr este propósito se vale de modelos estadísticos de inferencia asi como de otros modelos basados en matemáticas. El Data Scientis se valde machine learning para implementar estos modelos de tal forma que la ejecución de los mismos sea automatizada. Utiliza lenguajes tales como python y R.
    • Data Translator Es un rol tipo gerencial o de dirección que tiene un conocimiento transversal a todos los demás roles, y su principal fortaleza o característica es un conocimiento profundo de la lógica del negocio.

Top comments (0)