Capítulo 6 Manipulación de datos: Dplyr

Así como es de importante la limpieza en un análisis de datos, lo es la manipulación de estos, ya que la información que contienen debe ser extraída y será poco probable que se vean a simple vista. Para dichas tareas el paquete dplyr, parte del tidyverse, es una de las mejores opciones.

dplyr tiene tres metas principales:

  1. Identificar los verbos de manipulación más importantes en la manipulación de datos y hacerlos fácil de usar en R. Esto mediante un conjunto de funciones que se verán en esta sección.
  2. Proporcionar un gran rendimiento en datos alojados en memoria utilizando código en C++ mediante la librería Rcpp en sus funciones.
  3. Usar la misma interfaz para trabajar con los datos sin importar cuando y como estén almacenados (data frame, data table o en una base de datos).

Para este paquete se puede obtener su Cheat Sheet oficial y es mencionada en otras como Data import y Data Wrangling. También se puede usar el comando vignette("dplyr", package="dplyr") para ver una guía con ejemplos de este paquete donde utilizan una base de datos de Star Wars obtenida directamente de su API.

Para este caso, se tomará las bases de datos que ya se utilizaron en la sección anterior para ver el funcionamiento de algunas de las funciones de dplyr.