1 - Introducción a Machine Learning in `tidymodels`

Authors

Affiliation

Francisco Cardozo

Universidad de Miami

Edgar Ruiz

1 Objetivos del capítulo

Este capítulo introduce el flujo de trabajo básico para construir modelos de machine learning con tidymodels. Al finalizar deberías poder:

Reconocer los tipos de modelos más comunes y sus propósitos.
Distinguir entre aprendizaje supervisado y no supervisado.
Explicar las etapas del proceso de análisis de datos y cómo se evalúan los modelos.
Identificar los paquetes del ecosistema tidyverse que facilitan la preparación y el modelado.

Se centran en comprender y comunicar qué ocurre en los datos:

Buscan responder preguntas sobre parámetros poblacionales:

Priorizan la capacidad de anticipar resultados:

Asignan reglas a eventos futuros, aun si el mecanismo no es completamente conocido.
Evalúan el desempeño con datos no utilizados durante el entrenamiento.
Prefieren métricas enfocadas en el error de predicción o la generalización.

Algunos algoritmos ampliamente usados en predicción supervisada incluyen:

Cada algoritmo ofrece un balance distinto entre interpretabilidad, capacidad de ajuste y requisitos computacionales.

Se dispone de una variable de resultado (Y) y el objetivo es mapear predictores (X) contra ella.

No existe un resultado etiquetado. El foco está en encontrar estructura latente.

Un proyecto analítico rara vez comienza construyendo el modelo definitivo. Los pasos habituales incluyen:

Explorar los datos (EDA) para entender la calidad y los patrones principales.
Ingeniería de variables para crear representaciones que capturen la señal.
Ajustar y sintonizar modelos con remuestreo o validación cruzada.
Evaluar el desempeño con métricas alineadas al problema.

Durante cada etapa conviene responder preguntas como:

Error de generalización: se estima usando muestras de validación o remuestreo para aproximar el comportamiento fuera de muestra.
Balance sesgo-varianza: modelos muy flexibles pueden sobreajustar (bajo sesgo, alta varianza), mientras que modelos rígidos pueden subajustar (alto sesgo, baja varianza).

Existen múltiples enfoques para crear modelos:

Base R: funciones como lm() o glm() permiten especificar fórmulas de manera directa.
Paquetes especializados: glmnet, ranger, xgboost, stan, entre otros.
Ecosistema tidymodels: provee una sintaxis coherente para especificar modelos, recetas de preprocesamiento y flujos de trabajo reproducibles.

Cada paquete se enfoca en una parte del pipeline:

Trabajar con tidyverse implica una convención clara:

Uso extensivo del operador |> para encadenar pasos.
Nombres de objetos consistentes y expresivos.
Preferencia por funciones puras que retornan objetos de la misma clase que reciben.
Uso explícito de comillas y factores, evitando transformaciones implícitas.
Promoción de la programación funcional para iterar sin bucles mutables.