Sesión 1: ¿Cómo proceso cadenas de texto como datos?

Breve repaso del tidyverse

  • Repaso breve de las 5 funciones
  • Uso de las funciones para cadenas de texto str_
  • Breve introducción a las expresiones regulares

Procesamiento y lectura de textos

  • ¿Cómo leo datos desde PDF / EPUBs / archivos de texto?
  • Ordenar, estructurar y limpiar cadenas de texto
  • ¿Qué es un corpus y para qué sirve?

Scraping básico

  • ¿Cómo obtengo datos de manera sistemática de algún lugar de internet?

Introducción a tidytext

  • Como desanidar tokens con unnest_tokens y contarlos.







Sesión 2: ¿Cómo analizar las palabras?

Introducción al análisis cuantitativo de textos

  • Ley de Zipf
  • Conteo de tokens y n-gramas¨
  • Relaciones entre palabras

El documento como unidad de análisis

  • Cálculo y uso del tf_idf

Introducción al análisis de sentimientos

  • Análisis de sentimientos por el método de diccionario

Similitud entre documentos

  • Distancias euclideanas







Sesión 3: Modelos de clasificación

Preparación para modelar

  • Remover palabras vacías (stopwords)
  • Extraer las stemas
  • Etiquetado de elementos del discurso

Métodos de categorías conocidas:

  • Implementación práctica de la regresión lineal
  • Implementación práctica Naive Bayes para NLP
  • Implementación práctica de Lasso para NLP







Sesión 4: Más modelos

Métodos de clasificación con categorías no conocidas

  • Distribución latente de Dirichlet
  • Distribución latente de Dirichlet con semillas

Vectorización de textos