tidyverse
Tidyverse
readRDS()
: Esta función se utiliza para leer un archivo de datos en formato RDS. En este caso, se utiliza para leer el archivo “base_NR.rds” y almacenar los datos en un objeto llamado “los_datos”.
|>
: Este operador se utiliza para encadenar varias operaciones juntas en una sola línea de código. En este caso, se utiliza para encadenar la función readRDS()
a la función as_tibble()
.
as_tibble()
: Esta función se utiliza para convertir un objeto en un tibble, que es una versión mejorada de un data frame en R. En este caso, se utiliza para convertir el objeto “los_datos” en un tibble.
glimpse()
: Esta función se utiliza para imprimir una vista previa de los datos, incluyendo el tipo de datos de cada columna y las primeras filas de los datos. En este caso, se utiliza para explorar los datos almacenados en el objeto “los_datos”.Tidyverse
select()
Esta funcion selecciona las columnas que yo le indique de la base de datos.
En este ejemplo quiero una nueva base de datos que tenga la variable NHPROUD “Hay gente en mi barrio que se siente orgullosa de mí cuando hago algo bien”
select()
: Esta función se utiliza para seleccionar columnas específicas de un data frame o tibble. En este caso, se utiliza para seleccionar la columna “NHPROUD” del objeto “los_datos”.
distinct()
: Esta función se utiliza para eliminar filas duplicadas de un data frame o tibble. En este caso, se utiliza para eliminar filas duplicadas de la columna “NHPROUD” del objeto “los_datos”.
select()
En este ejemplo voy a seleccionar las variables GENDER, AWRMAR, AWRALC, AWRCIG
“Qué tan mal ven la mayoría de los adultos de tu barrio (aquellos más cercanos a ti) el que los jóvenes de tu edad…”
mutate()
Esta función crea una nueva variable -añade una nueva columna- o tranforma una variable que esté presente en la base de datos.
Mi idea es tranformar las tres variables del ejemplo anterior para tener un puntaje de las percepciones de los estudiantes sobre las creencias de los adultos frente al consumo de las sustancias.
¿Qué debo hacer?
mutate()
los_datos |>
select(AWRMAR, AWRALC, AWRCIG) |>
mutate(AWRMAR = case_when(
AWRMAR == "Muy mal" ~ 1,
AWRMAR == "Mal" ~ 2,
AWRMAR == "Notan mal" ~ 3,
AWRMAR == "Para nada mal" ~ 4,
TRUE ~ NA
))
los_datos |>
select(AWRMAR, AWRALC, AWRCIG) |>
mutate(across(everything(), transformar_respuesta)) |>
mutate(TOTAL = (AWRMAR + AWRALC + AWRCIG)/3)
Tip
## Pro
transformar_respuesta <- function(x) {
case_when(
x == "Muy mal" ~ 1,
x == "Mal" ~ 2,
x == "Notan mal" ~ 3,
x == "Para nada mal" ~ 4,
TRUE ~ NA
)
}
los_datos |>
select(AWRMAR, AWRALC, AWRCIG) |>
mutate(across(everything(), transformar_respuesta)) |>
mutate(TOTAL = (AWRMAR + AWRALC + AWRCIG)/3)
case_when()
: Esta función se utiliza para realizar una serie de comparaciones y asignar valores en función de las comparaciones. En este caso, se utiliza para asignar un valor numérico a la columna “AWRMAR” del objeto “los_datos” en función de los valores de texto que contiene.
across():
Esta función se utiliza para aplicar una función a varias columnas de un data frame o tibble. En este caso, se utiliza para aplicar la función transformar_respuesta() a todas las columnas del objeto “los_datos”.
everything():
Esta función se utiliza para seleccionar todas las columnas de un data frame o tibble. En este caso, se utiliza para aplicar la función transformar_respuesta() a todas las columnas del objeto “los_datos”.
filter()
filter()
es una funcion que permite seleccionar filas de la base de datos según una condición.
Siguiendo con el ejemplo de qué tan mal los adultos del barrio ven el consumo de ciertas sustancias, voy a utilizar un filtro para seleccionar solamente las filas en las que los adultos respondieron “No tan mal” para el consumo de marihuana (AWRMAR)
Con este filtro puedo ver que en los primeros 10 casos, cuando un adulto juzga que no está tan mal fumar marihuana, el juicio de consumo de alcohol y cigarrillo parece seguir el mismo patrón.
Ahora miremos qué pasa si filtro por la opción de “Muy mal”
Es diferente al primer ejemplo, juzgar el consumo de marihuana como Muy mal parece también coincidir con el consumo de alcohol y cigarrillo.
filter()
: Esta función se utiliza para seleccionar filas específicas de un data frame o tibble en función de una o varias condiciones. En este caso, se utiliza para seleccionar las filas del objeto “los_datos” en las que la columna “AWRMAR” es igual a “No tan mal”.summarise()
Esta función permiten obtener medidas de resumen de la base de datos, como por ejemplo, la media, moda, frecuencias, desviación estándar, etc.
summarise()
: Esta función se utiliza para obtener medidas de resumen de un data frame o tibble. En este caso, se utiliza para obtener la media, la desviación estándar, el valor máximo y el valor mínimo de la columna “AWRMAR” del objeto “los_datos”.
starts_with()
: Esta función se utiliza para seleccionar columnas que comienzan con un determinado prefijo. En este caso, se utiliza para seleccionar las columnas que comienzan con “A” del objeto “los_datos”.
tidymodels
https://www.tidymodels.org/
Estimar un modelo de regresión logistica para evaluar asociación entre el consumo de alcohol y los factores de riesgo
Explorar los datos gráficamente
mini_datos |>
group_by(PYALC) |>
summarise(across("CRPAD":"SPRPI", \(x) mean(x, na.rm = TRUE))) |>
pivot_longer(-PYALC) |>
filter(!is.na(PYALC)) |>
ggplot(aes(value, fct_reorder(name, value), fill = PYALC)) +
geom_col(alpha = 0.8, position = "dodge") +
scale_x_continuous() +
labs(x = "Promedio", y = NULL, fill = NULL)
Machine Learning