Manejo de datos con Python
(Del 2 al 30 de septiembre, 2019)
Horario de clases
El curso tendrá una duración total de 24 horas. 8 sesiones de 3 horas.
Lunes y miércoles de 18:00 a 21:00 horas (2,4,9,11,18,23,25 y 30 de
septiembre)
LUGAR
: Teatro de Decisiones del LNPP, CIDE.
Introducción
Python es el lenguaje más
popular
para hacer ciencia de datos. Sus múltiples librerías permiten llevar a cabo
todo el proceso de obtención, limpieza, análisis y visualización de datos
de una manera muy eficiente. Además, es gratis y muy fácil e intuitivo de
aprender.
En este curso vamos a conocer Python y a empezar a programar desde cero en
este lenguaje que puede abrir muchas oportunidades en tu carrera.
Específicamente aprenderemos a usar las librerías más populares para las
tareas de manejo y visualización de datos, no solo numéricos, sino también
de datos geográficos y de texto.
Objetivo
El objetivo del curso es aprender a usar Python para el manejo y
visualización de datos. Específicamente, los objetivos del curso son
aprender a:
· Hacer operaciones básicas de manejo de bases de datos.
· Hacer el pre procesamiento y limpieza de variables.
-
Elaborar gráficas estáticas.
· Hacer procesamiento básico de texto para su análisis.
· Realizar operaciones básicas de manejo de datos geoespaciales.
Dirigido a
Cualquier profesional interesado en ciencia de datos.
Conocimientos previos
Preferentemente con experiencia en análisis de datos y algún software para
manejo de bases de datos (R, Stata, Excel, etc).
Temario
1. Introducción básica a Python:
En esta sesión veremos lo fundamental para empezar a programar en Python
desde cero.
-
¿Qué es?
-
¿qué se puede hacer en Python?
-
Ejemplos de aplicaciones
-
Cómo instalar Python y sus paquetes
-
Jupyter notebooks
-
Tipos de datos: str, int, float
· Funciones built-in básicas: print(), type(), len(), range(),
· Estructuras de datos en Python: Tuplas, Listas, Diccionarios, Conjuntos,
Arrays, DataFrames
2. Introducción intermedia a Python:
En esta sesión seguiremos aprendiendo a programar en Python utilizando las
estructuras de control -que nos permiten automatizar y controlar procesos
repetitivos- y también veremos cómo crear nuestras propias funciones y
comandos.
· Estructuras de control en Python: for, while, if, else, elif, whit
-
Listas y diccionarios por comprensión
-
Funciones
-
Clases y métodos
3. Manejo de datos en Pandas I
Pandas es la librería más popular de Python para el manejo datos. Es
sencilla y muy completa. En esta sesión aprenderemos desde cómo leer los
archivos con datos, pasando por cómo crear y transformar variables,
reestructurar la base de datos, resumir la información y finalmente
exportar a otros formatos los datos.
· Leer datos de diferentes fuentes (csv, Excel, stata, spss, internet)
-
Filtro de variables y valores
-
Consultas
-
Crear variables
-
Renombrar variables
-
Reemplazar valores
-
Reestructurar (pivot, melt)
-
Transformación de variables
-
Resumir información (summary)
-
Exportar los datos.
4. Manejo de datos en Pandas II
En esta sesión veremos algunas funcionalidades más avanzadas de Pandas.
-
Unir bases de datos.
-
Agrupar y agregar datos
-
Multindex
-
Missing Values
-
Duplicados
-
Aplicar funciones
-
Variables categóricas
5. Gráficas con MatplotLib y Seaborn
En esta sesión exploraremos las librerías más populares de Python para
elaborar gráficas.
-
Gráficas en Matplotlib
-
Propiedades de las gráficas
-
Múltiples gráficas
-
Gráficas en Seaborn
6. Manejo de texto
En esta sesión aprenderemos los fundamentos del procesamiento de texto para
su análisis. Veremos cómo pre procesar y limpiar el texto, cómo usar
expresiones regulares y algunos análisis básicos de analítica de texto.
-
Funciones built-in de los strings
-
Expresiones regulares
-
Métodos para variables string en Pandas
-
Lectura de archivos de texto
-
NLTK
-
Tokenización
-
Ngrams
-
Conteo de frecuencias
7. Otras utilidades de Python para el análisis de datos
Estas son utilidades varias que nos ayudan en tareas cotidianas del manejo
de datos.
-
Librerías para manejar fechas y tiempo.
-
Librerías para obtener datos de APIS.
-
Taller de repaso
8. Manejo de datos espaciales con GeoPandas
GeoPandas hace muy fácil el manejo y la visualización de datos geográficos.
En esta sesión aprenderemos cómo usar la información geográfica para
enriquecer el análisis de datos.
-
Instalación
-
Estructuras de datos de GeoPandas
-
Lectura de datos espaciales
-
Operaciones geométricas
-
Uniones de bases datos
-
Uniones espaciales
-
Geocodificación
-
Mapas
Bibliografía
1. McKinney, W. (2012). Python for data analysis: Data wrangling with
Pandas, NumPy, and IPython. " O'Reilly Media, Inc.".
2. Automate the Boring Stuff with Python. Libro en línea disponible en:
https://automatetheboringstuff.com/
3. Bird, S., Klein, E., & Loper, E. (2009). Natural language processing
with Python: analyzing text with the natural language toolkit. " O'Reilly
Media, Inc.". Disponible en : http://www.nltk.org/book/
Profesor
Juan Javier Santos Ochoa
E-mail: juan.santos@cide.edu
Requisitos de Admisión
:
Para ser admitido como alumno de nuevo ingreso al programa de Educación
Continua, el solicitante debe satisfacer los siguientes requisitos:
-
Realizar su inscripción en línea a través de la liga:
http://200.10.244.148:8084/solicitud/
.
-
Copia de identificación oficial con fotografía.
-
Enviar antes de la fecha de inicio, comprobante de pago y formato de
inscripción del curso en PDF, al correo:
maricarmen.garcia@cide.edu
y entregar los originales el primer día de clase.
Precio y formas de pago:
Los participantes deberán cubrir una colegiatura de $6,500.00 (seis mil quinientos pesos 00/100 m.n.), la cual
deberá ser cubierta en una sola exhibición. Bajo ninguna circunstancia se
otorgarán prórrogas para el pago de cuotas. Las inscripciones se cierran el
primer día del curso.
El depósito o transferencia bancaria se deberá hacer al bancoHSBC a nombre de Centro de Investigación y Docencia Económicas, A. C. a la
cuenta número: 4039603584, sucursal número0763 (Lilas), CLABE: 021180040396035842.
Estacionamiento:
Los participantes de la Escuela de Métodos tendrán acceso al
estacionamiento del CIDE.
Mayores informes:
Maricarmen García Hernández
Tel. (55) 5727 9800 ext. 2465
maricarmen.garcia@cide.edu