1 - Introducción a Machine Learning in tidymodels

Temas

  1. Tipos de modelos
    • Descriptivo
    • Inferencial
    • Predictivo
  2. Machine Learning - Supervised
    • Clasificación
    • Regresión - Unsupervised
    • Clustering
  3. Equilibrio entre la varianza y el sesgo
  4. Validación Cruzada
  1. Evaluación de los Modelos - Separación entrenamiento y prueba - Remuestreo
    • Leave One Out
    • K-Fold
    • Boostraping

Tipos de modelos

  • Describir las características de una base de datos
  • Visualizar los datos
  • Resumir los datos
  • Generar hipótesis
  • Estimar la probabilidad de que ocurra un evento
  • Producir una estimación de un parámetro poblacional
  • Probar una hipótesis
  • Idea predeterminada y se prueba
  • Valor p, intervalo de confianza
  • Anticipar el valor de una variable
  • Aplicar una regla a un evento que no ha ocurrido
  • Mayor interés en la predicción que en la inferencia
  • Puede ser que no importe el mecanismo

Otra clasificación es

  • Modelos explicativos
  • Modelos predictivos

¿Se puede tener un buen modelo explicativo y no ser bueno para la predicción?

¿Se puede tener un buen modelo predictivo y no ser bueno para la explicación?

Machine Learning

Muchos modelos de machine learning son predictivos por ejemplo:

  • k-nearest neighbors
  • Árboles de decisión
  • Random Forests
  • Support Vector Machines

Machine Learning

No hay una variable de resultado

  • Componentes principales

Hay una variable de resultado

  • Regresión: variable de resultado continua

  • Clasificación: variable de resultado categórica

Cuál es el proceso del análisis de datos

  • ¿La creación del modelo es el primer paso?
  • ¿Limpiar los datos?
  • ¿Explorar los datos?
  • ¿Cómo se van a evaluar los modelos?

Gráfico del proceso de análisis de datos

Proceso de análisis de datos

  • Explorar los datos (EDA)
  • “Ingeniería de variables”- crear nuevas variables
  • Ajustar-sintonizar los modelos
  • Evaluar los modelos

Tres ideas importantes

  1. Utilizar la muestra para estimar el error de generalización
  2. Descomponer el error en tres fuentes: varianza, sesgo y ruido.
  3. Utilizar recursos computacionales

¿Cuál es el mejor sofware para hacer esto?

  • Python
  • R
  • Julia
  • Matlab
  • Programas
    • Mplus
    • Stata
    • SAS
    • SPSS

En este workshop utilizaremos

Modelar datos en R

  • Usar base R
  • Usar tidyverse

Tidyverse

ggplot2 - para visualización de gráficos

dplyr - para el procesamiento de datos

tidyr - para la transformación de datos en formato “tidy” (ordenado)

readr - para la lectura de datos en diferentes formatos (CSV, TSV, etc.)

purrr - para la programación funcional

tibble - para la creación de data frames en formato “tidy”

stringr - para la manipulación de cadenas de texto

forcats- para la manipulación de factores

Tidyverse

  • Estilo
    • Pipe
    • nombre_de_los_objetos
    • uso de las comillas
    • retorna un objeto de la misma clase
    • programación funcional