1. Introducción a Machine Learning con `tidymodels`

Francisco Cardozo

Universidad de Miami

Dr. Eric C. Brown

Universidad de Miami

Agradecimientos

Este workshop es posible gracias a la colaboración de la Fundación Universitaria Konrad Lorenz, la Universidad de Miami, a través del Frost Institute for Data Science and Computing y el Department of Public Health Sciences, y la Corporación Nuevos Rumbos.

Temas

Tipos de modelos
- Descriptivo
- Inferencial
- Predictivo
Machine Learning
- Supervised
  - Clasificación
  - Regresión
- Unsupervised
  - Clustering
- Reinforcement Learning

Ideas principales
- Error de generalización
- Equilibrio entre la varianza y el sesgo
- Regularización

Tipos de modelos

Descriptivos

Describir las características de una base de datos
Visualizar los datos
Resumir los datos
Generar hipótesis

Inferencial

Estimar la probabilidad de que ocurra un evento
Producir una estimación de un parámetro poblacional
Probar una hipótesis
Idea predeterminada y se prueba
Valor p, intervalo de confianza

Predictivo

Anticipar el valor de una variable
Aplicar una regla a un evento que no ha ocurrido
Mayor interés en la predicción que en la inferencia
Puede ser que no importe el mecanismo

Otra clasificación es

Modelos explicativos
- Inferencia Causal
- Teoría
- Efectos
- DAGs
Modelos predictivos
- Machine Learning
- Black box
- No énfasis en el mecanismo
- Desarrollado con métrica de predicción
- Sesgo y varianza

¿Se puede predecir sin explicar?

Machine Learning

No-supervisado

No hay una variable de resultado

Por ejemplo
- Componentes principales
- Reducción de dimensionalidad

Supervisado

Hay una variable de resultado

Regresión: variable de resultado continua
Clasificación: variable de resultado categórica

¿En qué consiste el análisis de datos?

¿Cuál es el inicio y el final del análisis de datos?

¿La creación del modelo es el primer paso?
¿Limpiar los datos?
¿Explorar los datos?
¿Cómo se van a evaluar los modelos?

Gráfico del proceso de análisis de datos

Se inicia con importar los datos, seguido por la organización-limpieza de los datos, la exploración, la creación de modelos y finalmente la comunicación de los resultados.

imagen de R4DS

Proceso de análisis de datos

Explorar los datos (EDA)
Modelos iniciales
Evaluación de los modelos
“Ingeniería de variables”- crear nuevas variables
Ajustar-sintonizar los modelos
Evaluación final de los modelos
Modelo Final

imagen de Tidymodels

¿Cuál es el mejor sofware para hacer esto?

Python
R
Matlab
Julia
Stata
SAS
SPSS
Mplus

En este workshop utilizaremos

Analizar datos en R

Usar base R
Usar tidyverse

Tidyverse

ggplot2 - para visualización de gráficos dplyr - para el procesamiento de datos tidyr - para la transformación de datos en formato “tidy” (ordenado) readr - para la lectura de datos en diferentes formatos (CSV, TSV, etc.) purrr - para la programación funcional tibble - para la creación de data frames en formato “tidy” stringr - para la manipulación de cadenas de texto forcats- para la manipulación de factores más

Tidyverse

Pipe
nombre_de_los_objetos
Uso de las comillas
Retorna un objeto de la misma clase
Programación funcional

Tidymodels

parsnip - para la especificación de modelos recipes - para la preparación de datos rsample - para la validación de modelos tune - para la sintonización de hiperparámetros workflows - para la creación de flujos de trabajo dials - para la selección de hiperparámetros yardstick - para la evaluación de modelos más

Este workshop

En este workshop vamos a utilizar tidymodels para desarrollar los models.

Utilizaremos una base de datos que contiene información sobre factores de riesgo asociados al consumo de drogas en adolescentes. Vamos a desarrollar en primer lugar un modelo descriptivo que nos permita entender la relación entre las variables. Luego vamos a desarrollar un modelo predictivo que nos permita predecir el consumo de drogas en adolescentes basados en los factores de riesgo.

Objetivos

Ideas principales
- Calcular el error de un modelo en nuevos datos.
- Buscar el equilibrio entre la varianza y el sesgo de un modelo.
- Aplicar regularización para evitar el sobreajuste.

Resumen

Modelos descriptivos, inferenciales y predictivos
Machine Learning
Proceso de análisis de datos
Tidyverse
Tidymodels

1. Introducción a Machine Learning con tidymodels

Agradecimientos

Temas

Tipos de modelos

Descriptivos

Inferencial

Predictivo

Otra clasificación es

¿Se puede predecir sin explicar?

Machine Learning

No-supervisado

Supervisado

¿En qué consiste el análisis de datos?

Gráfico del proceso de análisis de datos

Proceso de análisis de datos

¿Cuál es el mejor sofware para hacer esto?

En este workshop utilizaremos

Analizar datos en R

Tidyverse

Tidyverse

Tidymodels

Este workshop

Objetivos

Resumen

Preguntas

1. Introducción a Machine Learning con `tidymodels`