Sesión 1: ¿Cómo proceso cadenas de texto como datos?
Breve repaso del tidyverse
- Repaso breve de las 5 funciones
- Uso de las funciones para cadenas de texto
str_
- Breve introducción a las expresiones regulares
Procesamiento y lectura de textos
- ¿Cómo leo datos desde PDF / EPUBs / archivos de texto?
- Ordenar, estructurar y limpiar cadenas de texto
- ¿Qué es un corpus y para qué sirve?
Scraping básico
- ¿Cómo obtengo datos de manera sistemática de algún lugar de internet?
Introducción a tidytext
- Como desanidar tokens con
unnest_tokens
y contarlos.
Sesión 2: ¿Cómo analizar las palabras?
Introducción al análisis cuantitativo de textos
- Ley de Zipf
- Conteo de tokens y n-gramas¨
- Relaciones entre palabras
El documento como unidad de análisis
Introducción al análisis de sentimientos
- Análisis de sentimientos por el método de diccionario
Similitud entre documentos
Sesión 3: Modelos de clasificación
Preparación para modelar
- Remover palabras vacías (stopwords)
- Extraer las stemas
- Etiquetado de elementos del discurso
Métodos de categorías conocidas:
- Implementación práctica de la regresión lineal
- Implementación práctica Naive Bayes para NLP
- Implementación práctica de Lasso para NLP
Sesión 4: Más modelos
Métodos de clasificación con categorías no conocidas
- Distribución latente de Dirichlet
- Distribución latente de Dirichlet con semillas
Vectorización de textos