¿Cómo unir el contenido de dos datasets?

Seguramente en tu trabajo habitual con datos necesitaste cruzar varias fuentes de datos y si tu herramienta de cálculo es Excel posiblemente lo resuelvas con alguna combinación de las formulas VLOOKUP, HLOOKUP y/o MATCH. Excel es una gran solución en muchos casos, pero suele traer dificultades en algunos escenarios. Por ejemplo, cuando...

  1. ...tenés MUCHAS filas. VLOOKUP puede tener problemas de performance y ser muy lento
  2. ...necesitás buscar mas de un campo para combinar los datos
  3. ...cambia la posición de las filas o las columnas
  4. ...solo necesitás los datos que estén en los dos conjuntos de datos
  5. ...alguna de las fuentes de datos cambio de cantidad de filas y tenés que copiar o ajustar las formulas.

Con Alphacast podés utilizar los pipelines para combinar datasets y mantenerlos conectados.

Paso 1.Elegir una fuente de datos

Para hacer merge dos datasets primero hay que dirigirse al botón Create new y elegir pipeline v2.0. Una vez allí, seleccionar el repositorio donde se guardará el pipeline y escribir el nombre deseado. En Fetch dataset seleccionar el dataset requerido. Apretar el botón Save.

Paso 2. Seleccionar la fuente de datos a "Mergear"

Luego clickear Add step below y elegir la opción Merge with Dataset, ahí se selecciona el dataset que se quiere sumar. Las mejores combinaciones de dataset se obtienen con datos que comparten la frecuencia (diario, mensual, trimestral o anual). Los datasets deben tener la misma frecuencia.

Paso 3. Elegir los campos comunes

Si tenemos dos datasets, tenemos que indicar al sistema cuál es el método de "empalme" entre ambos datasets. Es decir, cuales serán los campos que deben estar en uno y otro dataset a partir del cual unirlos.

  • Habitualmente habrá solo un Date, en cuyo caso se hará Merge de ambos datasets por sus fechas.
  • Además de la fecha los datasets pueden tener más de un entity. Por ejemplo, pueden tener un dato por fecha y por país. En ese caso habrá que identificar, de haberlo, cual es el campo del segundo dataset que se corresponde con el campo país.
  • Si no se seleccionara un campo para el segundo país la conexión será sólo a través del campo fecha. En este caso, las filas del dataset B pueden aparecer repetidos si hubiera más de una ocurrencia de su fecha en el dataset A.

image.png

En este caso, el ejemplo utilizado fueron dos datasets con una frecuencia mensual y la misma entity (Argentina). El resultado de esta combinación, al elegir la opción Left Join, es que todos los datos del primer dataset (EMAE) quedarán. Los que se incorporarán, serán aquellos datos del Consumer Price Index que coincidan en fecha y entity.

Paso 4. El tipo de Merge

Existen cuatro tipos de criterios para la unión

image.png

  • Inner join: El nuevo dataset tendrá solo aquellas filas que logren ser matcheadas.
  • Left join: Estarán todas las filas del dataset A y las filas no matcheadas del dataset B son descartadas.
  • Right join: Inverso al anterior. Todas las del dataset B y descartadas las no matcheadas del A.
  • Outer join: Los datos de ambos datasets permanecerán aun si no matchean.

Paso 5. Publicar

Como resultado del paso anterior, se obtendrá la combinación de las columnas del Dataset A y el Dataset B. A partir de aquí podrás seguir procesandolo o publicarlo en un dataset nuevo.

camila

Written by

camila

Discover the new "Exploring Alphacast" Repository here https://www.alphacast.io/repositories/1862/insights

Alphacast

Part of

Alphacast

Related insights