Definición: La regresión logística es un método estadístico que ayuda a analizar un conjunto de datos en el que hay una o más variables independientes y tiene una variable dependiente que es binaria o dicotómica (solo hay dos resultados posibles). Fue desarrollado por el estadístico David Cox en 1958. La variable dependiente solo puede tomar dos valores, es decir, 0 o 1, sí o no, predeterminado o ningún valor predeterminado, etc. Los factores o variables independientes pueden ser variables categóricas o numéricas. Aplicación: la regresión logística se usa para predecir un resultado binario. Una compañía de tarjetas de crédito puede construir un modelo, decidir si emitir una tarjeta de crédito a un cliente o no según varios parámetros. El modelo ayudará a la compañía a identificar si el cliente va a «incumplimiento» o «no predeterminado» en esta tarjeta de crédito (también llamada modelado de propensión predeterminada). Del mismo modo, en el sector de la salud, se puede utilizar para predecir el resultado de una enfermedad (ya sea que el sujeto sufra de una enfermedad en particular o no) en función de varias variables como la temperatura corporal, la presión, la edad, etc. El modelo es: logit (p) = a + b1x1 + … + bnxn, donde logit (p) = ln {p/(1- 1- p)} y n es la probabilidad esperada de un evento natural y logits. Entrenamiento del modelo (usando R) El conjunto de datos se llama Titanic y contiene 4 variables independientes: edad del pasajero, género del pasajero, clase de viajes (primera, segunda y tercera clase) y tarifa. La variable dependiente es la supervivencia (ya sea que el pasajero sobreviviera o no) el siguiente código se ejecutó en R para crear un modelo GLM simple para el conjunto de datos: Titanic <- read.csv ("titanic.csv") titanic $ class <- as.factor (titanic $ class) titanic.glm <- glm (supervival ~ age+gender+class+tarifa, data = titanic, titanic, titanic, titanic, Family = "Binomial") Resumen (Titanic.Glm) Los resultados del modelo se resumen a continuación: Interpretando el modelo El coeficiente asociado con el género variable es -2.4935, por lo que las probabilidades de sobrevivir para un hombre es exp (-2.4935) = 0.082 veces que de una mujer de la misma edad, clase y tarifa. El coeficiente para la edad = -0.034313 que se interpreta como el cambio esperado en las probabilidades de registro para un aumento de una unidad en la edad. La probabilidad se puede calcular mediante el uso de la función exponencial (EXP (-0.034)) para obtener valor = 0.9662689, lo que significa que esperamos ver una disminución del 3.37% en las probabilidades de supervivencia, para un aumento de una unidad en la edad. Medición del rendimiento del modelo 1. AIC (criterios de información de Akaike): es una medida de qué tan bien el modelo se ajusta a los datos y qué tan complejo es el modelo. Es la medida del ajuste que penaliza el modelo para el número de coeficientes del modelo. Le ayuda a encontrar el modelo de mejor ajuste que utiliza la menor cantidad de variables y, por lo tanto, preferimos un modelo con AIC mínimo. Pero no dirá nada sobre la calidad absoluta. AIC = -2 (Log -Likelilidad) + 2K donde: K es el número de variables en el modelo más la intercepción. La probabilidad log es una medida del ajuste del modelo. Cuanto mayor sea el número, mejor será el ajuste. 2. Desviación nula y desviación residual: la desviación nula muestra qué tan bien se predice la variable de respuesta mediante un modelo que incluye solo la intersección. Baje el valor, mejor el modelo. La desviación residual indica la respuesta predicha por un modelo al agregar variables independientes. Baje el valor, mejor el modelo. 3. Algoritmo de puntuación de Fisher: es un derivado del método de Newton para resolver los problemas de máxima probabilidad numéricamente. 4. Matriz de confusión: no es más que la representación tabular de los valores reales y predichos que ayudarán a evaluar el rendimiento de un modelo de clasificación. Terminologías Positivos verdaderos (TP): estos son casos en los que predijimos que sí, y el resultado real también fue sí. Verdadero negativo (TN): predijimos que no, y el resultado real tampoco fue falso positivo (FP): predijimos que sí, pero lo real era no. (También conocido como "error tipo I". (También conocido como "error de tipo II"). Algunas métricas importantes de la precisión de la matriz de confusión del modelo = (verdaderos positivos + negativos verdaderos) / Número total de observaciones tasa de clasificación errónea o tasa de error = (falsos positivos + falsos negativos) / Número total de observaciones = 1 - Tasa positiva verdadera de precisión (también conocido como "sensibilidad" o "recordar") = TP / (TP + fn) Tasa de falso) FN/(TP+FN) = 1 Tasa negativa verdadera de sensibilidad (también conocida como "especificidad") = TN/(TN+FP) Tasa falsa positiva = 1-Especificidad = FP/(TN+FP) 5. Curva de características operativas (ROC) receptor ayuda a visualizar el rendimiento del modelo. Es una parcela de la verdadera tasa positiva (sensibilidad) contra la tasa de falsos positivos (1 especificidad). El área bajo la curva (AUC) (también conocida como índice de precisión (a) o índice de concordancia) es una métrica de rendimiento para la curva ROC. Más alto en el área bajo la curva, mejor el poder de predicción del modelo. Una prueba perfecta tiene un área debajo de la curva ROC como 1. El peor modelo (modelo inútil) tendrá el AUC como 0.5. Cuanto más cerca del gráfico esté a los bordes superior e izquierdo, más preciso será el modelo. Del mismo modo, cuanto más cerca del gráfico a la diagonal, menos precisa es la prueba.
Deja una respuesta