¡Hola! Bienvenida al curso de análisis cuantitativo de texto del verano de 2021:
La idea de este curso es que las personas que los tomen puedan enfrentarse a los problemas más comunes de procesamiento, análisis y visualización de datos provenientes del lenguaje natural.
Es por eso que se utilizará el lenguaje humano como insumo para poder entender ciertos patrones del lenguaje. Algunas habilidades que se podrán adquirir de este curso son las siguientes:
El curso tiene una duración de 16 horas clase + asesoría para proyectos propios.
Sábados 21, 28 agosto y 4 y 11 de septiembre.
De 10 am a 2 pm (4 horas por sesión)
El curso tiene un costo de 3,000 pesos mexicanos en total (se emiten facturas).
Los principales materiales que usaremos son los siguientes:
Benoit - quanteda: An R package for the quantitative analysis of textual data
BNOSAC - UDPipe Natural Language Processing - Text Annotation
Hvitfeldt y Silge - Supervised Machine Learning for Text Analysis in R
Cornelius Puschmann - Advancing Text Mining with R and quanteda
John Wilkerson and Andreu Casas (2017), Large-Scale Computerized Text Analysis in Political Science: Opportunities and Challenges Annual Review of Political Science, 20:1, 529-544 enlace
Grimmer, J., & Stewart, B. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis, 21(3), 267-297. doi:10.1093/pan/mps028 enlace
🔥 El trabajo de Dan Berliner enlace
R
?Para este curso vamos a trabajar, desde el principio, con código en R
. Es necesario tener la última versión de este lenguaje, al momento de escribir este repositorio ésta es la versión 4.1.1.
Para instalarlo, es necesario entrar a The Comprehensive R Archive Network y seguir las instrucciones para cada sistema operativo.
.pkg
de este link, descomprimir el archivo, abrir el archivo y seguir las instrucciones..exe
de este link, abrir el archivo y seguir las instrucciones.En Terminal, escribir las siguientes dos líneas:
sudo apt-get update
sudo apt install r-base r-base-core r-recommended r-base-de
Para instalar RStudio (plataforma que usaremos para el uso de R
), es necesario acudir a esta página y seleccionar nuestro sistema operativo en el menú Installers for Supported Platforms.
Para Ubuntu, hay que correr estas líneas en Terminal:
sudo apt-get install gdebi-core
wget https://download2.rstudio.org/server/xenial/amd64/rstudio-server-1.3.1093-amd64.deb
sudo gdebi rstudio-server-1.3.1093-amd64.deb
Es importante tener LaTeX para crear documentos en PDF. Para instalarlo, hay que entrar a este sitio y seleccionar nuestro sistema operativo.
Hay, realmente, miles de materiales excelentes para aprender R
. En mi experiencia éstos han sido los más útiles.
Wickham y Grolemund - R for Data Science: Este el libro sagrado de los que usamos R
a través del tidyverse
. Es el mejor y más completo libro para aprender a usar en lenguaje. Les recomiendo mucho terminarlo.
Cotton - Learning R A Step-by-Step Function Guide to Data Analysis
Phillips - YaRrr! The Pirate’s Guide to R: Una guía introductoria (y bastante divertida) de aprender R
. Altamente recomendable también para aprender métodos bayesianos. Yo aprendí R
con este manual. Phillips también tiene gran material introductorio en su canal de YouTube
Burns - R’s Inferno: La premisa del autor es simple “si estás usando R y piensas que es un infierno, este libro es para ti”.
Privé - Advanced R Course:Un buen libro avanzado sobre el tema.
Stack Overflow: No hay de otra, es crucial preguntar.
Prabhakaran - Top 50 ggplot2 Visualizations - The Master List (With Full R Code)
Sebastián Garrido - Recursos para R: “Segasi” ha recolectado un montón de recursos introductorios (y no tanto) en su página personal.
En este curso se pretende que podamos presentar resultados en reportes profesionales y muy elegantes que puean ser leídos (y usados) por cualquiera. Así, usaremos Markdown “con sabor” a R
para generar código y resultados.
Xie, Allaire & Grolemund - R Markdown: The Definitive Guide: La Guía definitiva para usar Markdown “con sabor” a R.
A simple guide to LaTeX - Step by Step: Si bien no usaremos LaTeX directamente, sí es importante tenerlo instalado y conocer su existencia y su sintaxis básica para usarla en RMarkdown.
Este curso está construido en mayor o menor medida con base en siguientes materiales:
Ismay & Kim - Statistical Inference via Data Science: A ModernDive into R and the Tidyverse.
Navarro - Learning statistics with R: A tutorial for psychology students and other beginners.. El código del libro disponible aquí.
Field et a. - Discovering Statistics Using R. Este libro es bastante didáctico, pero un poco infantil para personas más maduras.
Sheather - A Modern Approach to Regression with R. El código se encuentra aquí.
James, et al. - An Introduction to Statistical Learning with Applications in R. El PDF y el código se encuentran en el link.
Bruce & Bruce - Practical Statistics for Data Scientists 50 Essential Concepts: El código de este libro se encuentra en este repositorio.
Hastie, et al. - The Elements of Statistical Learning. El PDF y el código se encuentran en el link.
Teetor - R Cookbook Proven Recipes for Data Analysis, Statistics, and Graphics
Algunos repositorios recomendados para buscar buenas bases de datos.
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.