1. Introducción a Machine Learning con tidymodels

Francisco Cardozo

Universidad de Miami

Dr. Eric C. Brown

Universidad de Miami

Agradecimientos

Este workshop es posible gracias a la colaboración de la Fundación Universitaria Konrad Lorenz, la Universidad de Miami, a través del Frost Institute for Data Science and Computing y el Department of Public Health Sciences, y la Corporación Nuevos Rumbos.

Temas

  1. Tipos de modelos
    • Descriptivo
    • Inferencial
    • Predictivo
  2. Machine Learning
    • Supervised
      • Clasificación
      • Regresión
    • Unsupervised
      • Clustering
    • Reinforcement Learning
  1. Ideas principales
    • Error de generalización
    • Equilibrio entre la varianza y el sesgo
    • Regularización

Tipos de modelos

Descriptivos

  • Describir las características de una base de datos
  • Visualizar los datos
  • Resumir los datos
  • Generar hipótesis

Inferencial

  • Estimar la probabilidad de que ocurra un evento
  • Producir una estimación de un parámetro poblacional
  • Probar una hipótesis
  • Idea predeterminada y se prueba
  • Valor p, intervalo de confianza

Predictivo

  • Anticipar el valor de una variable
  • Aplicar una regla a un evento que no ha ocurrido
  • Mayor interés en la predicción que en la inferencia
  • Puede ser que no importe el mecanismo

Otra clasificación es

  1. Modelos explicativos
    • Inferencia Causal
    • Teoría
    • Efectos
    • DAGs
  2. Modelos predictivos
    • Machine Learning
    • Black box
    • No énfasis en el mecanismo
    • Desarrollado con métrica de predicción
    • Sesgo y varianza

¿Se puede predecir sin explicar?

Machine Learning

No-supervisado

No hay una variable de resultado

  • Por ejemplo
    • Componentes principales
    • Reducción de dimensionalidad

Supervisado

Hay una variable de resultado

  • Regresión: variable de resultado continua
  • Clasificación: variable de resultado categórica

¿En qué consiste el análisis de datos?

¿Cuál es el inicio y el final del análisis de datos?

  • ¿La creación del modelo es el primer paso?
  • ¿Limpiar los datos?
  • ¿Explorar los datos?
  • ¿Cómo se van a evaluar los modelos?

Gráfico del proceso de análisis de datos

Se inicia con importar los datos, seguido por la organización-limpieza de los datos, la exploración, la creación de modelos y finalmente la comunicación de los resultados.

imagen de R4DS

Proceso de análisis de datos

  • Explorar los datos (EDA)
  • Modelos iniciales
  • Evaluación de los modelos
  • “Ingeniería de variables”- crear nuevas variables
  • Ajustar-sintonizar los modelos
  • Evaluación final de los modelos
  • Modelo Final

imagen de Tidymodels

¿Cuál es el mejor sofware para hacer esto?

  • Python
  • R
  • Matlab
  • Julia
  • Stata
  • SAS
  • SPSS
  • Mplus

En este workshop utilizaremos

Analizar datos en R

  • Usar base R
  • Usar tidyverse

Tidyverse

ggplot2 - para visualización de gráficos dplyr - para el procesamiento de datos tidyr - para la transformación de datos en formato “tidy” (ordenado) readr - para la lectura de datos en diferentes formatos (CSV, TSV, etc.) purrr - para la programación funcional tibble - para la creación de data frames en formato “tidy” stringr - para la manipulación de cadenas de texto forcats- para la manipulación de factores más

Tidyverse

  • Pipe
  • nombre_de_los_objetos
  • Uso de las comillas
  • Retorna un objeto de la misma clase
  • Programación funcional

Tidymodels

parsnip - para la especificación de modelos recipes - para la preparación de datos rsample - para la validación de modelos tune - para la sintonización de hiperparámetros workflows - para la creación de flujos de trabajo dials - para la selección de hiperparámetros yardstick - para la evaluación de modelos más

Este workshop

En este workshop vamos a utilizar tidymodels para desarrollar los models.

Utilizaremos una base de datos que contiene información sobre factores de riesgo asociados al consumo de drogas en adolescentes. Vamos a desarrollar en primer lugar un modelo descriptivo que nos permita entender la relación entre las variables. Luego vamos a desarrollar un modelo predictivo que nos permita predecir el consumo de drogas en adolescentes basados en los factores de riesgo.

Objetivos

  1. Ideas principales
    • Calcular el error de un modelo en nuevos datos.
    • Buscar el equilibrio entre la varianza y el sesgo de un modelo.
    • Aplicar regularización para evitar el sobreajuste.

Resumen

  • Modelos descriptivos, inferenciales y predictivos
  • Machine Learning
  • Proceso de análisis de datos
  • Tidyverse
  • Tidymodels

Preguntas