Syllabus

Sesión 1: ¿Cómo proceso cadenas de texto como datos?

Breve repaso del tidyverse

Repaso breve de las 5 funciones
Uso de las funciones para cadenas de texto str_
Breve introducción a las expresiones regulares

Procesamiento y lectura de textos

¿Cómo leo datos desde PDF / EPUBs / archivos de texto?
Ordenar, estructurar y limpiar cadenas de texto
¿Qué es un corpus y para qué sirve?

Scraping básico

¿Cómo obtengo datos de manera sistemática de algún lugar de internet?

Introducción a `tidytext`

Como desanidar tokens con unnest_tokens y contarlos.

Sesión 2: ¿Cómo analizar las palabras?

Introducción al análisis cuantitativo de textos

Ley de Zipf
Conteo de tokens y n-gramas¨
Relaciones entre palabras

El documento como unidad de análisis

Cálculo y uso del tf_idf

Introducción al análisis de sentimientos

Análisis de sentimientos por el método de diccionario

Similitud entre documentos

Distancias euclideanas

Sesión 3: Modelos de clasificación

Preparación para modelar

Remover palabras vacías (stopwords)
Extraer las stemas
Etiquetado de elementos del discurso

Métodos de categorías conocidas:

Implementación práctica de la regresión lineal
Implementación práctica Naive Bayes para NLP
Implementación práctica de Lasso para NLP

Sesión 4: Más modelos

Métodos de clasificación con categorías no conocidas

Distribución latente de Dirichlet
Distribución latente de Dirichlet con semillas

Vectorización de textos