Etiqueta: Regresión

Descripción teórica de la regresión lineal

La regresión lineal es un tipo de modelo estadístico donde se establece una relación lineal entre una o más variables independientes a una variable dependiente. Es uno de los tipos más simples de modelado predictivo. Los modelos de regresión lineal/múltiple se pueden representar en forma de una ecuación y = a1x1 + a2x2 + … + ansn + b donde y es la variable dependiente, xn es las variables independientes y A es el coeficiente de Xn y B es la intersección. Entonces, ¿qué es un coeficiente? Son pesos establecidos a las variables independientes en función de la importancia del modelo. Tomemos un ejemplo de una regresión lineal simple que tiene una ventas de variables dependientes y una variable independiente llamada Price. Esto puede representarse en forma de ventas de ecuación = A*Price + B donde A es un coeficiente de precio. Explica el cambio en las ventas cuando el precio cambia en 1 unidad. B es el término de intercepción, que también es el valor de predicción que obtiene cuando el precio = 0, sin embargo, debemos entender que siempre hay un término de error asociado con él. Entonces, ¿cómo se reduce el error en el modelo? La línea de mejor ajuste, el objetivo principal de la mejor línea de ajuste es garantizar que los valores predichos estén más cerca de nuestros valores reales o observados. Debemos minimizar la diferencia entre los valores predichos por nosotros y los valores observados. Se denomina errores. Una técnica para reducir el error es mediante el uso de mínimos cuadrados ordinarios (OLS). Intenta reducir la suma de los errores al cuadrado ∑[Actual(Sales) – Predicted(Sales)]² Al encontrar el mejor valor posible del coeficiente de regresión A. Esta técnica penaliza un mayor valor de error mucho más en comparación con uno más pequeño para que haya una diferencia significativa entre cometer grandes errores y pequeños errores. Por lo tanto, es fácil diferenciar y seleccionar la mejor línea de ajuste. También puede usar otras técnicas como el mínimo generalizado, porcentaje mínimo cuadrado, total de mínimos cuadrados, desviación menos absoluta y muchas más. Sin embargo, OLS es fácil de analizar y ayuda a diferenciar y calcular el descenso de gradiente. La interpretación de OLS también es mucho más fácil que otras técnicas de regresión. Suposiciones en la regresión lineal Los siguientes son algunos de los supuestos que hacemos en un modelo de regresión lineal: existe una relación lineal y aditiva entre las variables dependientes e independientes. Por lineal, significa que el cambio en la variable independiente por 1 cambio de unidad en la variable dependiente es constante. Por aditivo, se refiere al efecto de x en y es independiente de otras variables. No existe multicolinealidad (presencia de correlación en variables independientes). No debe haber correlación entre las variables independientes. Si las variables están correlacionadas, se vuelve extremadamente difícil para el modelo determinar el verdadero efecto de IV en DV. Los términos de error deben poseer una varianza constante y una ausencia de ella conduce a la heterocedasticidad. Los términos de error no deben estar correlacionados. La presencia de correlación en los términos de error se denomina autocorrelación. Afecta drásticamente los coeficientes de regresión y los valores de error estándar, ya que se basan en la suposición de términos de error no correlacionados. La variable dependiente y los términos de error deben poseer una distribución normal. Violaciones de seguimiento de los supuestos «¿Cómo sé si estos supuestos se violan en mi modelo de regresión lineal?». Bueno, tienes varias formas de averiguarlo. Los valores residuales versus ajustados se paran en la gráfica entre sus valores residuales y ajustados no debe mostrar ningún patrón. Si observa cualquier curva o patrones en forma de U, significa que no hay una no linealidad en el conjunto de datos. Si observa un patrón de forma del embudo, significa que sus datos sufren de heteroscedasticidad: los términos de error tienen una varianza no constante. Normalidad gráfica QQ Se utiliza para determinar la distribución normal de los errores y utiliza un valor estandarizado de residuos. Esta trama debería mostrar una línea recta. Si encuentra una línea curva y distorsionada, entonces sus residuos tienen una distribución no normal. Durbin Watson Statistic (DW) Esta prueba se usa para verificar la autocorrelación. El valor se encuentra entre 0 y 4. Si el valor de prueba para DW = 2, significa que no hay autocorrelación. Si el valor es entre 0 y 2, implica una autocorrelación positiva, mientras que un valor mayor AN 2 implica autocorrelación negativa. Factor de inflación de varianza (VIF) Esta métrica también se usa para verificar la multicolinealidad. VIF de menos de 4 implica que no hay multicolinealidad, pero VIF> = 10 sugiere una alta multicolinealidad. Alternativamente, también puede observar el valor de tolerancia (1/VIF) para determinar la correlación en variables independientes. Medición del rendimiento del modelo ¿Tenemos una métrica de evaluación para verificar el rendimiento del modelo? R CUADRADO: Determina cuánto de la variación total en y (variable dependiente) se explica por la variación en x (variable independiente). El valor varía de 0 a 1. R Square = 1 – (Suma de error cuadrado/Suma de Total cuadrado) = 1 – ∑[YActual – YPredicted]²/ ∑[YActual – YMean]² Supongamos que obtuvo un valor de 0.432 como R Square para el ejemplo anterior. Significa que solo el 43.2% de la varianza en las ventas se explica por el precio. En otras palabras, si sabe el precio, tendrá una información del 43.2% para hacer una predicción precisa sobre las ventas. Por lo tanto, cuanto mayor sea el valor de R Square, mejor será el modelo (más cosas a considerar). ¿Puede R-Squared ser negativo? Sí, cuando su modelo no tiene una intersección. Sin una intersección, la regresión podría ser peor que la media de la muestra en términos de predecir la variable objetivo. Si el ajuste es realmente peor que simplemente ajustar una línea horizontal, entonces R-Square es negativo. Cuando el número de variables independientes en su modelo es más, es mejor considerar r² ajustado que r² para determinar el ajuste del modelo. R-cuadrado ajustado: un problema con R² es que cuando el valor aumenta proporcionalmente al número de variables aumenta. Independientemente de si la nueva variable realmente está agregando información, el valor aumenta. Para superar este problema, usamos R² ajustado que no aumenta (permanece igual o disminuye) a menos que la variable recién agregada sea realmente útil. Por lo tanto, R-cuadrado ajustado es una forma modificada de R-cuadrado que se ha ajustado para el número de predictores en el modelo. Incorpora el grado de libertad del modelo. El R-cuadrado ajustado solo aumenta si el nuevo término mejora la precisión del modelo. R² ajustado = 1-((1-r²) (N-1))/(N-P-1) donde, r² = muestra r cuadrado, p = número de predictores, n = estadísticas totales de tamaño de muestra F: evalúa la importancia general del modelo. Es la relación de varianza explicada por el modelo por varianza inexplicable. Su valor puede variar entre cero y cualquier número grande. Naturalmente, más altas las estadísticas F, mejor el modelo. Otras métricas para evaluar el error medio cuadrado (MSE): este es un error cuadrado medio. Tiende a amplificar el impacto de los valores atípicos en la precisión del modelo. Por ejemplo, si la Y real es 5 y la Y predictiva es 25, el MSE resultante sería ∑ (25-5) ² = 400. Error absoluto medio (MAE): es la diferencia entre el valor real y predicho. Para el ejemplo anterior, el MAE sería ∑ (25-5) = 20 Error cuadrado medio raíz (RMSE): se interpreta como cuán lejos es el promedio de los residuos de cero. Nullifica el efecto cuadrado de MSE por raíz cuadrada y proporciona el resultado en unidades originales como datos. En el ejemplo, el RMSE sería √∑ (25-5) ² = 20. Tenga en cuenta que los valores más bajos de RMSE indican un mejor ajuste.

Guía de principiantes para la regresión logística

por Javier Javier Rodriguez

el agosto 13, 2025

en Computadoras

Definición: La regresión logística es un método estadístico que ayuda a analizar un conjunto de datos en el que hay una o más variables independientes y tiene una variable dependiente que es binaria o dicotómica (solo hay dos resultados posibles). Fue desarrollado por el estadístico David Cox en 1958. La variable dependiente solo puede tomar dos valores, es decir, 0 o 1, sí o no, predeterminado o ningún valor predeterminado, etc. Los factores o variables independientes pueden ser variables categóricas o numéricas. Aplicación: la regresión logística se usa para predecir un resultado binario. Una compañía de tarjetas de crédito puede construir un modelo, decidir si emitir una tarjeta de crédito a un cliente o no según varios parámetros. El modelo ayudará a la compañía a identificar si el cliente va a «incumplimiento» o «no predeterminado» en esta tarjeta de crédito (también llamada modelado de propensión predeterminada). Del mismo modo, en el sector de la salud, se puede utilizar para predecir el resultado de una enfermedad (ya sea que el sujeto sufra de una enfermedad en particular o no) en función de varias variables como la temperatura corporal, la presión, la edad, etc. El modelo es: logit (p) = a + b1x1 + … + bnxn, donde logit (p) = ln {p/(1- 1- p)} y n es la probabilidad esperada de un evento natural y logits. Entrenamiento del modelo (usando R) El conjunto de datos se llama Titanic y contiene 4 variables independientes: edad del pasajero, género del pasajero, clase de viajes (primera, segunda y tercera clase) y tarifa. La variable dependiente es la supervivencia (ya sea que el pasajero sobreviviera o no) el siguiente código se ejecutó en R para crear un modelo GLM simple para el conjunto de datos: Titanic <- read.csv ("titanic.csv") titanic $ class <- as.factor (titanic $ class) titanic.glm <- glm (supervival ~ age+gender+class+tarifa, data = titanic, titanic, titanic, titanic, Family = "Binomial") Resumen (Titanic.Glm) Los resultados del modelo se resumen a continuación: Interpretando el modelo El coeficiente asociado con el género variable es -2.4935, por lo que las probabilidades de sobrevivir para un hombre es exp (-2.4935) = 0.082 veces que de una mujer de la misma edad, clase y tarifa. El coeficiente para la edad = -0.034313 que se interpreta como el cambio esperado en las probabilidades de registro para un aumento de una unidad en la edad. La probabilidad se puede calcular mediante el uso de la función exponencial (EXP (-0.034)) para obtener valor = 0.9662689, lo que significa que esperamos ver una disminución del 3.37% en las probabilidades de supervivencia, para un aumento de una unidad en la edad. Medición del rendimiento del modelo 1. AIC (criterios de información de Akaike): es una medida de qué tan bien el modelo se ajusta a los datos y qué tan complejo es el modelo. Es la medida del ajuste que penaliza el modelo para el número de coeficientes del modelo. Le ayuda a encontrar el modelo de mejor ajuste que utiliza la menor cantidad de variables y, por lo tanto, preferimos un modelo con AIC mínimo. Pero no dirá nada sobre la calidad absoluta. AIC = -2 (Log -Likelilidad) + 2K donde: K es el número de variables en el modelo más la intercepción. La probabilidad log es una medida del ajuste del modelo. Cuanto mayor sea el número, mejor será el ajuste. 2. Desviación nula y desviación residual: la desviación nula muestra qué tan bien se predice la variable de respuesta mediante un modelo que incluye solo la intersección. Baje el valor, mejor el modelo. La desviación residual indica la respuesta predicha por un modelo al agregar variables independientes. Baje el valor, mejor el modelo. 3. Algoritmo de puntuación de Fisher: es un derivado del método de Newton para resolver los problemas de máxima probabilidad numéricamente. 4. Matriz de confusión: no es más que la representación tabular de los valores reales y predichos que ayudarán a evaluar el rendimiento de un modelo de clasificación. Terminologías Positivos verdaderos (TP): estos son casos en los que predijimos que sí, y el resultado real también fue sí. Verdadero negativo (TN): predijimos que no, y el resultado real tampoco fue falso positivo (FP): predijimos que sí, pero lo real era no. (También conocido como "error tipo I". (También conocido como "error de tipo II"). Algunas métricas importantes de la precisión de la matriz de confusión del modelo = (verdaderos positivos + negativos verdaderos) / Número total de observaciones tasa de clasificación errónea o tasa de error = (falsos positivos + falsos negativos) / Número total de observaciones = 1 - Tasa positiva verdadera de precisión (también conocido como "sensibilidad" o "recordar") = TP / (TP + fn) Tasa de falso) FN/(TP+FN) = 1 Tasa negativa verdadera de sensibilidad (también conocida como "especificidad") = TN/(TN+FP) Tasa falsa positiva = 1-Especificidad = FP/(TN+FP) 5. Curva de características operativas (ROC) receptor ayuda a visualizar el rendimiento del modelo. Es una parcela de la verdadera tasa positiva (sensibilidad) contra la tasa de falsos positivos (1 especificidad). El área bajo la curva (AUC) (también conocida como índice de precisión (a) o índice de concordancia) es una métrica de rendimiento para la curva ROC. Más alto en el área bajo la curva, mejor el poder de predicción del modelo. Una prueba perfecta tiene un área debajo de la curva ROC como 1. El peor modelo (modelo inútil) tendrá el AUC como 0.5. Cuanto más cerca del gráfico esté a los bordes superior e izquierdo, más preciso será el modelo. Del mismo modo, cuanto más cerca del gráfico a la diagonal, menos precisa es la prueba.

Etiqueta: Regresión

Descripción teórica de la regresión lineal

Guía de principiantes para la regresión logística