Definición: La regresión logística es un método estadístico que ayuda a analizar un conjunto de datos en el que hay una o más variables independientes y tiene una variable dependiente que es binaria o dicotómica (solo hay dos resultados posibles). Fue desarrollado por el estadístico David Cox en 1958. La variable dependiente solo puede tomar dos valores, es decir, 0 o 1, SÍ o NO, predeterminado o no predeterminado, etc. Los factores o variables independientes pueden ser variables categóricas o numéricas. Aplicación: La regresión logística se utiliza para predecir un resultado binario. Una compañía de tarjetas de crédito puede construir un modelo, decidir si emitir una tarjeta de crédito a un cliente o no en función de varios parámetros. El modelo ayudará a la compañía a identificar si el cliente va a «Incumplir» o «No Incumplir» en esta tarjeta de crédito (también llamado Modelado de Propensión al Incumplimiento). De manera similar, en el sector de la salud, se puede utilizar para predecir el resultado de una enfermedad (ya sea que el sujeto sufra una enfermedad particular o no) en función de varias variables como la temperatura corporal, la presión, la edad, etc. El modelo es: logit (p) = a + b1X1 + … + bnXn, donde logit (p) = ln{p/(1- p)} y n es la probabilidad esperada de un evento y ln es el logaritmo natural. Entrenamiento del modelo (usando R) El conjunto de datos se llama Titanic y contiene 4 variables independientes: edad del pasajero, género del pasajero, clase de viaje (1.ª, 2.ª y 3.ª clase) y tarifa. La variable dependiente es Supervivencia (si el pasajero sobrevivió o no) El siguiente código se ejecutó en R para crear un modelo GLM simple para el conjunto de datos:titanic<- read.csv("titanic.csv")titanic$Class <- as.factor(titanic$Class)titanic.glm <- glm(Survival~Age+Gender+Class+Fare, data=titanic, family="binomial")summary(titanic.glm) Los resultados del modelo se resumen a continuación: Interpretación del modelo El coeficiente asociado con la variable Género es -2,4935, por lo que las probabilidades de sobrevivir para un hombre son exp(-2,4935) = 0,082 veces las de una mujer de la misma edad, clase y tarifa. El coeficiente para la edad = -0,034313 que se interpreta como el cambio esperado en las probabilidades logarítmicas para un aumento de una unidad en la edad. La razón de probabilidades se puede calcular utilizando la función exponencial (exp(-0.034)) para obtener el valor = 0.9662689, lo que significa que esperamos ver aproximadamente un 3.37% de disminución en las probabilidades de supervivencia, para un aumento de una unidad en la edad. Medición del rendimiento del modelo 1. AIC (criterios de información de Akaike): es una medida tanto de qué tan bien el modelo se ajusta a los datos como de qué tan complejo es el modelo. Es la medida de ajuste que penaliza al modelo por la cantidad de coeficientes del modelo. Le ayuda a encontrar el modelo de mejor ajuste que utiliza la menor cantidad de variables y, por lo tanto, preferimos un modelo con un AIC mínimo. Pero no dirá nada sobre la calidad absoluta. AIC = -2(log-verosimilitud) + 2K Donde: K es el número de variables en el modelo más la intersección. El log-verosimilitud es una medida de ajuste del modelo. Cuanto mayor sea el número, mejor será el ajuste. 2. Desviación nula y desviación residual: la desviación nula muestra qué tan bien se predice la variable de respuesta por un modelo que incluye solo la intersección. Cuanto menor sea el valor, mejor será el modelo. La desviación residual indica la respuesta predicha por un modelo al agregar variables independientes. Cuanto menor sea el valor, mejor será el modelo. 3. Algoritmo de puntuación de Fisher: es un derivado del método de Newton para resolver numéricamente problemas de máxima verosimilitud. 4. Matriz de confusión: no es más que la representación tabular de los valores reales y predichos que ayudará a evaluar el rendimiento de un modelo de clasificación. Terminologías Verdaderos positivos (VP): son casos en los que predijimos que sí y el resultado real también fue sí. Verdaderos negativos (VN): predijimos que no y el resultado real también fue no Falsos positivos (FP): predijimos que sí, pero el resultado real fue no. (También conocido como "error de tipo I"). Falsos negativos (FN): predijimos que no, pero el resultado real fue sí. (También conocido como un "error de tipo II"). Algunas métricas importantes de la Matriz de Confusión Precisión del Modelo = (Verdaderos Positivos + Verdaderos Negativos) / Número Total de Observaciones Tasa de Error o Clasificación Errónea = (Falsos Positivos + Falsos Negativos) / Número Total de Observaciones = 1 - Precisión Tasa de Verdaderos Positivos (también conocida como "Sensibilidad" o "Recuerdo") = TP/(TP+FN) Tasa de Falsos Negativos = FN/(TP+FN) = 1-Sensibilidad Tasa de Verdaderos Negativos (también conocida como "Especificidad") = TN/(TN+FP) Tasa de Falsos Positivos = 1 - Especificidad = FP/(TN+FP) 5. La Curva Característica Operativa del Receptor (ROC) ayuda a visualizar el desempeño del modelo. Es un gráfico de la tasa de verdaderos positivos (sensibilidad) contra la tasa de falsos positivos (1- Especificidad). El área bajo la curva (AUC) (también conocida como índice de precisión (A) o índice de concordancia) es una métrica de rendimiento para la curva ROC. Cuanto mayor sea el área bajo la curva, mejor será el poder de predicción del modelo. Una prueba perfecta tiene un área bajo la curva ROC de 1. El peor modelo (modelo inútil) tendrá un AUC de 0,5. Cuanto más cerca esté el gráfico de los bordes superior e izquierdo, más preciso será el modelo. Del mismo modo, cuanto más cerca esté el gráfico de la diagonal, menos precisa será la prueba.