Manejo y visualización de datos en R
(Del 12 de agosto al 4 de septiembre, 2019)
Horario de clases:
Martes y jueves de 18:00 a 21:00 horas (12,14,19,21,26 y 28 de agosto; 2 y
4 de septiembre)
Lugar
: Teatro de Decisiones del LNPP.
Introducción
Este curso está diseñado para fortalecer tus habilidades en dos áreas cada
vez más importante en el mercado laboral y que pocas veces se enseña en un
curso de licenciatura o posgrado: el manejo y visualización de datos usando R.
En el contexto de esta clase, el manejo de datos incluye
la construcción, limpieza y transformación
[1]
de bases de datos para su posterior uso. Dado que es inevitable que
tengamos que dedicar una enorme cantidad de tiempo a estas tres tareas
antes de poder analizar y/o visualizar nuestros datos, es crucial aprender
principios y herramientas que nos permitan realizarlas de forma eficiente,
ordenada y replicable/auditable.
Objetivos
A lo largo de este curso los alumnos aprenderán, entre otras cosas:
1. Principios básicos para el diseño y construcción de bases de datos;
2. Cómo usar herramientas para diagnosticar si una base de datos tiene
problemas y cómo corregirlos;
3. Qué es R, RStudio y los elementos básicos para
utilizar estos programas;
4. Cómo manejar y transformar una base de datos en RStudio para,
entre otras cosas:
a. Crear nuevas variables construidas a partir de variables existentes;
b. Renombrar variables;
c. Seleccionar un subconjunto de renglones o columnas;
d. Unir dos o más bases de datos;
e. Calcular estadísticas descriptivas; y,
f. Un largo etcétera...
Público objetivo
El curso está diseñado para personas con o sin experiencia en la
manipulación de bases de datos y/o programación. Los únicos prerrequisitos
son:
1. Que los asistentes tengan conocimientos básicos de estadística;
2. Que sepan utilizar hojas de cálculo (Excel, LibreOffice, etc.);
3. Que estén dispuestos a aprender a programar en R y que hayan
tomado este curso (http://bit.ly/1FORUxq) en línea gratuitoantes de que comencemos a trabajar con R y R Studio en la sesión 7;
4. Que hayan descargado e instalado R ( https://cran.itam.mx) y RStudio
( http://bit.ly/1HlIr0q ), un entorno de desarrollo integrado que nos
facilitará (dentro de lo que cabe) la vida al usar R .
Sesiones
El módulo está dividido en ocho sesiones, cada una de tres horas. A
continuación enlisto los temas que cubriremos en cada sesión:
Sesión 1
- Introducción a R y RStudio
- Tipos de datos
Lecturas:
Phillips, sección 9.3
Sesión 2
- Tipos de estructuras de datos
- Cómo cargar base de datos en formatos .csv, .xlsx, .dat, .sav, etc.
Lecturas:
Wickham y Grolemund, cap. 10 y 11 || Phillips, cap. 5, 6 y 8
Sesión 3
- Cómo “rebanar” bases de datos a la antigüita (R base)
- Cómo “rebanar”, transformar y analizar datos a la dplyr
Lecturas:
Wickham y Grolemund, cap. 5 || Phillips, sección 10.4
Sesión 4
- Unión de bases de datos con dplyr
- Tidyear bases de datos con tidyr
- Unir y tidyear , o de cómo dplyr + tidyr =
Lecturas:
Wickham y Grolemund, caps. 12 y 13
Sesión 5
- Factores con forcats.
- Cadenas de texto con stringr
- Fechas con lubridate y tibbletime
Lecturas:
Wickham y Grolemund, cap. 14-16.
Sesión 6
- Gráficas en R base
- Gráficas con ggplot2 – I
Lecturas:
Wickham y Grolemund, cap. 3
Sesión 7
- Gráficas con ggplot2 – II
Lecturas:
Wickham y Grolemund, cap. 28
Sesión 8
- Gráficas con ggplot2 – III
Lecturas:
Wickham y Grolemund, cap. 8 y 28
Bibliografía
Broman, Karl W. y Kara H. Woo (2017), “Data organization in spreadsheets”,
en The American Statistician.
Chang, Winston (2013) R Graphics Cookbook, O'Reilly Media,
California, Estados Unidos: http://bit.ly/2BUS3Io
Grolemund, Garrett (2014)
Hands-On Programming with R. Write Your Own Functions and Simulations
, O'Reilly Media, California, Estados Unidos.
Horton, Nicholas J., Randall Pruim y Daniel T. Kaplan (2015)A Student’s Guide to R, Project MOSAIC, url: http://bit.ly/1JJEZna
Phillips, Nathaniel D. (2018) YaRrr! The Pirate’s Guide to R.
Teetor, Paul (2011), R Cookbook, O'Reilly Media, California,
Estados Unidos.
Wickham, Hadley y Garrett Grolemund (2017)
R for Data Science: Import, Tidy, Transform, Visualize, and Model Data
, O'Reilly Media, California, Estados Unidos.
Wickham, Hadley (2014) “Tidy Data”, Journal of Statistical Software, Vol. 59, Issue 10.
Wilkinson, Leland (2005) The Grammar of Graphics, Springer,
Canadá.
Profesor
Sebastián Garrido de Sierra
E-mail:sebastian.garrido@cide.edu
Requisitos de Admisión
:
Para ser admitido como alumno de nuevo ingreso al programa de Educación
Continua, el solicitante debe satisfacer los siguientes requisitos:
-
Copia de identificación oficial con fotografía.
Precio y formas de pago:
Los participantes deberán cubrir una colegiatura de $6,500.00 (seis mil quinientos pesos 00/100 m.n.) por cada
curso, la cual deberá ser cubierta en una sola exhibición, a pagar al
momento de la inscripción en línea. Bajo ninguna circunstancia se otorgarán
prórrogas para el pago de cuotas. Las inscripciones se cierran el primer
día del curso.
El depósito o transferencia bancaria se deberá hacer al bancoHSBC a nombre de Centro de Investigación y Docencia Económicas, A. C. a la
cuenta número: 4039603584, sucursal número0763 (Lilas), CLABE: 021180040396035842.
Estacionamiento:
Los participantes de la Escuela de Métodos tendrán acceso al
estacionamiento del CIDE.
Mayores informes:
Maricarmen García Hernández
Tel. (55) 5727 9800 ext. 2465
maricarmen.garcia@cide.edu
[1]
En términos estrictos, el manejo de datos sólo incluye la
transformación de los mismos. Sin embargo,
en este curso aprenderás principios teóricos y habilidades
prácticas para construir y limpiar bases de
datos.