La regresión lineal es un tipo de modelo estadístico donde se establece una relación lineal entre una o más variables independientes a una variable dependiente. Es uno de los tipos más simples de modelado predictivo. Los modelos de regresión lineal/múltiple se pueden representar en forma de una ecuación y = a1x1 + a2x2 + … + ansn + b donde y es la variable dependiente, xn es las variables independientes y A es el coeficiente de Xn y B es la intersección. Entonces, ¿qué es un coeficiente? Son pesos establecidos a las variables independientes en función de la importancia del modelo. Tomemos un ejemplo de una regresión lineal simple que tiene una ventas de variables dependientes y una variable independiente llamada Price. Esto puede representarse en forma de ventas de ecuación = A*Price + B donde A es un coeficiente de precio. Explica el cambio en las ventas cuando el precio cambia en 1 unidad. B es el término de intercepción, que también es el valor de predicción que obtiene cuando el precio = 0, sin embargo, debemos entender que siempre hay un término de error asociado con él. Entonces, ¿cómo se reduce el error en el modelo? La línea de mejor ajuste, el objetivo principal de la mejor línea de ajuste es garantizar que los valores predichos estén más cerca de nuestros valores reales o observados. Debemos minimizar la diferencia entre los valores predichos por nosotros y los valores observados. Se denomina errores. Una técnica para reducir el error es mediante el uso de mínimos cuadrados ordinarios (OLS). Intenta reducir la suma de los errores al cuadrado ∑[Actual(Sales) – Predicted(Sales)]² Al encontrar el mejor valor posible del coeficiente de regresión A. Esta técnica penaliza un mayor valor de error mucho más en comparación con uno más pequeño para que haya una diferencia significativa entre cometer grandes errores y pequeños errores. Por lo tanto, es fácil diferenciar y seleccionar la mejor línea de ajuste. También puede usar otras técnicas como el mínimo generalizado, porcentaje mínimo cuadrado, total de mínimos cuadrados, desviación menos absoluta y muchas más. Sin embargo, OLS es fácil de analizar y ayuda a diferenciar y calcular el descenso de gradiente. La interpretación de OLS también es mucho más fácil que otras técnicas de regresión. Suposiciones en la regresión lineal Los siguientes son algunos de los supuestos que hacemos en un modelo de regresión lineal: existe una relación lineal y aditiva entre las variables dependientes e independientes. Por lineal, significa que el cambio en la variable independiente por 1 cambio de unidad en la variable dependiente es constante. Por aditivo, se refiere al efecto de x en y es independiente de otras variables. No existe multicolinealidad (presencia de correlación en variables independientes). No debe haber correlación entre las variables independientes. Si las variables están correlacionadas, se vuelve extremadamente difícil para el modelo determinar el verdadero efecto de IV en DV. Los términos de error deben poseer una varianza constante y una ausencia de ella conduce a la heterocedasticidad. Los términos de error no deben estar correlacionados. La presencia de correlación en los términos de error se denomina autocorrelación. Afecta drásticamente los coeficientes de regresión y los valores de error estándar, ya que se basan en la suposición de términos de error no correlacionados. La variable dependiente y los términos de error deben poseer una distribución normal. Violaciones de seguimiento de los supuestos «¿Cómo sé si estos supuestos se violan en mi modelo de regresión lineal?». Bueno, tienes varias formas de averiguarlo. Los valores residuales versus ajustados se paran en la gráfica entre sus valores residuales y ajustados no debe mostrar ningún patrón. Si observa cualquier curva o patrones en forma de U, significa que no hay una no linealidad en el conjunto de datos. Si observa un patrón de forma del embudo, significa que sus datos sufren de heteroscedasticidad: los términos de error tienen una varianza no constante. Normalidad gráfica QQ Se utiliza para determinar la distribución normal de los errores y utiliza un valor estandarizado de residuos. Esta trama debería mostrar una línea recta. Si encuentra una línea curva y distorsionada, entonces sus residuos tienen una distribución no normal. Durbin Watson Statistic (DW) Esta prueba se usa para verificar la autocorrelación. El valor se encuentra entre 0 y 4. Si el valor de prueba para DW = 2, significa que no hay autocorrelación. Si el valor es entre 0 y 2, implica una autocorrelación positiva, mientras que un valor mayor AN 2 implica autocorrelación negativa. Factor de inflación de varianza (VIF) Esta métrica también se usa para verificar la multicolinealidad. VIF de menos de 4 implica que no hay multicolinealidad, pero VIF> = 10 sugiere una alta multicolinealidad. Alternativamente, también puede observar el valor de tolerancia (1/VIF) para determinar la correlación en variables independientes. Medición del rendimiento del modelo ¿Tenemos una métrica de evaluación para verificar el rendimiento del modelo? R CUADRADO: Determina cuánto de la variación total en y (variable dependiente) se explica por la variación en x (variable independiente). El valor varía de 0 a 1. R Square = 1 – (Suma de error cuadrado/Suma de Total cuadrado) = 1 – ∑[YActual – YPredicted]²/ ∑[YActual – YMean]² Supongamos que obtuvo un valor de 0.432 como R Square para el ejemplo anterior. Significa que solo el 43.2% de la varianza en las ventas se explica por el precio. En otras palabras, si sabe el precio, tendrá una información del 43.2% para hacer una predicción precisa sobre las ventas. Por lo tanto, cuanto mayor sea el valor de R Square, mejor será el modelo (más cosas a considerar). ¿Puede R-Squared ser negativo? Sí, cuando su modelo no tiene una intersección. Sin una intersección, la regresión podría ser peor que la media de la muestra en términos de predecir la variable objetivo. Si el ajuste es realmente peor que simplemente ajustar una línea horizontal, entonces R-Square es negativo. Cuando el número de variables independientes en su modelo es más, es mejor considerar r² ajustado que r² para determinar el ajuste del modelo. R-cuadrado ajustado: un problema con R² es que cuando el valor aumenta proporcionalmente al número de variables aumenta. Independientemente de si la nueva variable realmente está agregando información, el valor aumenta. Para superar este problema, usamos R² ajustado que no aumenta (permanece igual o disminuye) a menos que la variable recién agregada sea realmente útil. Por lo tanto, R-cuadrado ajustado es una forma modificada de R-cuadrado que se ha ajustado para el número de predictores en el modelo. Incorpora el grado de libertad del modelo. El R-cuadrado ajustado solo aumenta si el nuevo término mejora la precisión del modelo. R² ajustado = 1-((1-r²) (N-1))/(N-P-1) donde, r² = muestra r cuadrado, p = número de predictores, n = estadísticas totales de tamaño de muestra F: evalúa la importancia general del modelo. Es la relación de varianza explicada por el modelo por varianza inexplicable. Su valor puede variar entre cero y cualquier número grande. Naturalmente, más altas las estadísticas F, mejor el modelo. Otras métricas para evaluar el error medio cuadrado (MSE): este es un error cuadrado medio. Tiende a amplificar el impacto de los valores atípicos en la precisión del modelo. Por ejemplo, si la Y real es 5 y la Y predictiva es 25, el MSE resultante sería ∑ (25-5) ² = 400. Error absoluto medio (MAE): es la diferencia entre el valor real y predicho. Para el ejemplo anterior, el MAE sería ∑ (25-5) = 20 Error cuadrado medio raíz (RMSE): se interpreta como cuán lejos es el promedio de los residuos de cero. Nullifica el efecto cuadrado de MSE por raíz cuadrada y proporciona el resultado en unidades originales como datos. En el ejemplo, el RMSE sería √∑ (25-5) ² = 20. Tenga en cuenta que los valores más bajos de RMSE indican un mejor ajuste.
Deja una respuesta