La regresión lineal es un tipo de modelo estadístico donde se establece una relación lineal entre una o más variables independientes a una variable dependiente. Es uno de los tipos más simples de modelado predictivo. Los modelos de regresión lineal/múltiple se pueden representar en forma de una ecuación y = a1x1 + a2x2 + … + ansn + b donde y es la variable dependiente, xn es las variables independientes y A es el coeficiente de Xn y B es la intersección. Entonces, ¿qué es un coeficiente? Son pesos establecidos a las variables independientes en función de la importancia del modelo. Tomemos un ejemplo de una regresión lineal simple que tiene una ventas de variables dependientes y una variable independiente llamada Price. Esto puede representarse en forma de ventas de ecuación = A*Price + B donde A es un coeficiente de precio. Explica el cambio en las ventas cuando el precio cambia en 1 unidad. B es el término de intercepción, que también es el valor de predicción que obtiene cuando el precio = 0, sin embargo, debemos entender que siempre hay un término de error asociado con él. Entonces, ¿cómo se reduce el error en el modelo? La línea de mejor ajuste, el objetivo principal de la mejor línea de ajuste es garantizar que los valores predichos estén más cerca de nuestros valores reales o observados. Debemos minimizar la diferencia entre los valores predichos por nosotros y los valores observados. Se denomina errores. Una técnica para reducir el error es mediante el uso de mínimos cuadrados ordinarios (OLS). Intenta reducir la suma de los errores al cuadrado ∑[Actual(Sales) – Predicted(Sales)]² Al encontrar el mejor valor posible del coeficiente de regresión A. Esta técnica penaliza un mayor valor de error mucho más en comparación con uno más pequeño para que haya una diferencia significativa entre cometer grandes errores y pequeños errores. Por lo tanto, es fácil diferenciar y seleccionar la mejor línea de ajuste. También puede usar otras técnicas como el mínimo generalizado, porcentaje mínimo cuadrado, total de mínimos cuadrados, desviación menos absoluta y muchas más. Sin embargo, OLS es fácil de analizar y ayuda a diferenciar y calcular el descenso de gradiente. La interpretación de OLS también es mucho más fácil que otras técnicas de regresión. Suposiciones en la regresión lineal Los siguientes son algunos de los supuestos que hacemos en un modelo de regresión lineal: existe una relación lineal y aditiva entre las variables dependientes e independientes. Por lineal, significa que el cambio en la variable independiente por 1 cambio de unidad en la variable dependiente es constante. Por aditivo, se refiere al efecto de x en y es independiente de otras variables. No existe multicolinealidad (presencia de correlación en variables independientes). No debe haber correlación entre las variables independientes. Si las variables están correlacionadas, se vuelve extremadamente difícil para el modelo determinar el verdadero efecto de IV en DV. Los términos de error deben poseer una varianza constante y una ausencia de ella conduce a la heterocedasticidad. Los términos de error no deben estar correlacionados. La presencia de correlación en los términos de error se denomina autocorrelación. Afecta drásticamente los coeficientes de regresión y los valores de error estándar, ya que se basan en la suposición de términos de error no correlacionados. La variable dependiente y los términos de error deben poseer una distribución normal. Violaciones de seguimiento de los supuestos «¿Cómo sé si estos supuestos se violan en mi modelo de regresión lineal?». Bueno, tienes varias formas de averiguarlo. Los valores residuales versus ajustados se paran en la gráfica entre sus valores residuales y ajustados no debe mostrar ningún patrón. Si observa cualquier curva o patrones en forma de U, significa que no hay una no linealidad en el conjunto de datos. Si observa un patrón de forma del embudo, significa que sus datos sufren de heteroscedasticidad: los términos de error tienen una varianza no constante. Normalidad gráfica QQ Se utiliza para determinar la distribución normal de los errores y utiliza un valor estandarizado de residuos. Esta trama debería mostrar una línea recta. Si encuentra una línea curva y distorsionada, entonces sus residuos tienen una distribución no normal. Durbin Watson Statistic (DW) Esta prueba se usa para verificar la autocorrelación. El valor se encuentra entre 0 y 4. Si el valor de prueba para DW = 2, significa que no hay autocorrelación. Si el valor es entre 0 y 2, implica una autocorrelación positiva, mientras que un valor mayor AN 2 implica autocorrelación negativa. Factor de inflación de varianza (VIF) Esta métrica también se usa para verificar la multicolinealidad. VIF de menos de 4 implica que no hay multicolinealidad, pero VIF> = 10 sugiere una alta multicolinealidad. Alternativamente, también puede observar el valor de tolerancia (1/VIF) para determinar la correlación en variables independientes. Medición del rendimiento del modelo ¿Tenemos una métrica de evaluación para verificar el rendimiento del modelo? R CUADRADO: Determina cuánto de la variación total en y (variable dependiente) se explica por la variación en x (variable independiente). El valor varía de 0 a 1. R Square = 1 – (Suma de error cuadrado/Suma de Total cuadrado) = 1 – ∑[YActual – YPredicted]²/ ∑[YActual – YMean]² Supongamos que obtuvo un valor de 0.432 como R Square para el ejemplo anterior. Significa que solo el 43.2% de la varianza en las ventas se explica por el precio. En otras palabras, si sabe el precio, tendrá una información del 43.2% para hacer una predicción precisa sobre las ventas. Por lo tanto, cuanto mayor sea el valor de R Square, mejor será el modelo (más cosas a considerar). ¿Puede R-Squared ser negativo? Sí, cuando su modelo no tiene una intersección. Sin una intersección, la regresión podría ser peor que la media de la muestra en términos de predecir la variable objetivo. Si el ajuste es realmente peor que simplemente ajustar una línea horizontal, entonces R-Square es negativo. Cuando el número de variables independientes en su modelo es más, es mejor considerar r² ajustado que r² para determinar el ajuste del modelo. R-cuadrado ajustado: un problema con R² es que cuando el valor aumenta proporcionalmente al número de variables aumenta. Independientemente de si la nueva variable realmente está agregando información, el valor aumenta. Para superar este problema, usamos R² ajustado que no aumenta (permanece igual o disminuye) a menos que la variable recién agregada sea realmente útil. Por lo tanto, R-cuadrado ajustado es una forma modificada de R-cuadrado que se ha ajustado para el número de predictores en el modelo. Incorpora el grado de libertad del modelo. El R-cuadrado ajustado solo aumenta si el nuevo término mejora la precisión del modelo. R² ajustado = 1-((1-r²) (N-1))/(N-P-1) donde, r² = muestra r cuadrado, p = número de predictores, n = estadísticas totales de tamaño de muestra F: evalúa la importancia general del modelo. Es la relación de varianza explicada por el modelo por varianza inexplicable. Su valor puede variar entre cero y cualquier número grande. Naturalmente, más altas las estadísticas F, mejor el modelo. Otras métricas para evaluar el error medio cuadrado (MSE): este es un error cuadrado medio. Tiende a amplificar el impacto de los valores atípicos en la precisión del modelo. Por ejemplo, si la Y real es 5 y la Y predictiva es 25, el MSE resultante sería ∑ (25-5) ² = 400. Error absoluto medio (MAE): es la diferencia entre el valor real y predicho. Para el ejemplo anterior, el MAE sería ∑ (25-5) = 20 Error cuadrado medio raíz (RMSE): se interpreta como cuán lejos es el promedio de los residuos de cero. Nullifica el efecto cuadrado de MSE por raíz cuadrada y proporciona el resultado en unidades originales como datos. En el ejemplo, el RMSE sería √∑ (25-5) ² = 20. Tenga en cuenta que los valores más bajos de RMSE indican un mejor ajuste.
Etiqueta: Analítica

Definición: La regresión logística es un método estadístico que ayuda a analizar un conjunto de datos en el que hay una o más variables independientes y tiene una variable dependiente que es binaria o dicotómica (solo hay dos resultados posibles). Fue desarrollado por el estadístico David Cox en 1958. La variable dependiente solo puede tomar dos valores, es decir, 0 o 1, sí o no, predeterminado o ningún valor predeterminado, etc. Los factores o variables independientes pueden ser variables categóricas o numéricas. Aplicación: la regresión logística se usa para predecir un resultado binario. Una compañía de tarjetas de crédito puede construir un modelo, decidir si emitir una tarjeta de crédito a un cliente o no según varios parámetros. El modelo ayudará a la compañía a identificar si el cliente va a «incumplimiento» o «no predeterminado» en esta tarjeta de crédito (también llamada modelado de propensión predeterminada). Del mismo modo, en el sector de la salud, se puede utilizar para predecir el resultado de una enfermedad (ya sea que el sujeto sufra de una enfermedad en particular o no) en función de varias variables como la temperatura corporal, la presión, la edad, etc. El modelo es: logit (p) = a + b1x1 + … + bnxn, donde logit (p) = ln {p/(1- 1- p)} y n es la probabilidad esperada de un evento natural y logits. Entrenamiento del modelo (usando R) El conjunto de datos se llama Titanic y contiene 4 variables independientes: edad del pasajero, género del pasajero, clase de viajes (primera, segunda y tercera clase) y tarifa. La variable dependiente es la supervivencia (ya sea que el pasajero sobreviviera o no) el siguiente código se ejecutó en R para crear un modelo GLM simple para el conjunto de datos: Titanic <- read.csv ("titanic.csv") titanic $ class <- as.factor (titanic $ class) titanic.glm <- glm (supervival ~ age+gender+class+tarifa, data = titanic, titanic, titanic, titanic, Family = "Binomial") Resumen (Titanic.Glm) Los resultados del modelo se resumen a continuación: Interpretando el modelo El coeficiente asociado con el género variable es -2.4935, por lo que las probabilidades de sobrevivir para un hombre es exp (-2.4935) = 0.082 veces que de una mujer de la misma edad, clase y tarifa. El coeficiente para la edad = -0.034313 que se interpreta como el cambio esperado en las probabilidades de registro para un aumento de una unidad en la edad. La probabilidad se puede calcular mediante el uso de la función exponencial (EXP (-0.034)) para obtener valor = 0.9662689, lo que significa que esperamos ver una disminución del 3.37% en las probabilidades de supervivencia, para un aumento de una unidad en la edad. Medición del rendimiento del modelo 1. AIC (criterios de información de Akaike): es una medida de qué tan bien el modelo se ajusta a los datos y qué tan complejo es el modelo. Es la medida del ajuste que penaliza el modelo para el número de coeficientes del modelo. Le ayuda a encontrar el modelo de mejor ajuste que utiliza la menor cantidad de variables y, por lo tanto, preferimos un modelo con AIC mínimo. Pero no dirá nada sobre la calidad absoluta. AIC = -2 (Log -Likelilidad) + 2K donde: K es el número de variables en el modelo más la intercepción. La probabilidad log es una medida del ajuste del modelo. Cuanto mayor sea el número, mejor será el ajuste. 2. Desviación nula y desviación residual: la desviación nula muestra qué tan bien se predice la variable de respuesta mediante un modelo que incluye solo la intersección. Baje el valor, mejor el modelo. La desviación residual indica la respuesta predicha por un modelo al agregar variables independientes. Baje el valor, mejor el modelo. 3. Algoritmo de puntuación de Fisher: es un derivado del método de Newton para resolver los problemas de máxima probabilidad numéricamente. 4. Matriz de confusión: no es más que la representación tabular de los valores reales y predichos que ayudarán a evaluar el rendimiento de un modelo de clasificación. Terminologías Positivos verdaderos (TP): estos son casos en los que predijimos que sí, y el resultado real también fue sí. Verdadero negativo (TN): predijimos que no, y el resultado real tampoco fue falso positivo (FP): predijimos que sí, pero lo real era no. (También conocido como "error tipo I". (También conocido como "error de tipo II"). Algunas métricas importantes de la precisión de la matriz de confusión del modelo = (verdaderos positivos + negativos verdaderos) / Número total de observaciones tasa de clasificación errónea o tasa de error = (falsos positivos + falsos negativos) / Número total de observaciones = 1 - Tasa positiva verdadera de precisión (también conocido como "sensibilidad" o "recordar") = TP / (TP + fn) Tasa de falso) FN/(TP+FN) = 1 Tasa negativa verdadera de sensibilidad (también conocida como "especificidad") = TN/(TN+FP) Tasa falsa positiva = 1-Especificidad = FP/(TN+FP) 5. Curva de características operativas (ROC) receptor ayuda a visualizar el rendimiento del modelo. Es una parcela de la verdadera tasa positiva (sensibilidad) contra la tasa de falsos positivos (1 especificidad). El área bajo la curva (AUC) (también conocida como índice de precisión (a) o índice de concordancia) es una métrica de rendimiento para la curva ROC. Más alto en el área bajo la curva, mejor el poder de predicción del modelo. Una prueba perfecta tiene un área debajo de la curva ROC como 1. El peor modelo (modelo inútil) tendrá el AUC como 0.5. Cuanto más cerca del gráfico esté a los bordes superior e izquierdo, más preciso será el modelo. Del mismo modo, cuanto más cerca del gráfico a la diagonal, menos precisa es la prueba.

Bueno, esta publicación de blog trata sobre mi viaje con Analytics en el Great Lakes Institute of Management, Chennai. Fui estudiante de PGDM (Mauryas Batch 2016-18) en la institución y estoy compartiendo parte de la experiencia memorable que tuve con análisis en los dos años. Antes de unirme a Great Lakes, tuve exposición a la analítica con la ayuda de pocos cursos en línea ofrecidos en EDX y Coursera.org. Me ayudó a tener una base sólida en análisis y bien versado en la programación R. Cursos En mi primer día en Great Lakes, tuvimos una sesión de Boot Camp sobre estadísticas y programación R. Fue una de las sesiones más relajadas a las que asistí en Great Lakes ya que ya conocía los conceptos. Pero más tarde me di cuenta de que también estaba en el fondo de la montaña. Todo comenzó con los métodos cuantitativos de toma de decisiones: 1 curso en el semestre 1 que fue pensado por nuestro decano asociado Dr. Vaidy Jayaraman. Una de las cosas más memorables de la clase fue el plazo nocturno para la tarea. En el segundo semestre, teníamos métodos cuantitativos de toma de decisiones: 2 por el Dr. Pk Viswanathan. El Dr. PK Viswanathan es uno de los 10 mejores académicos de análisis de la India. También es el mentor del comité de análisis en Great Lakes. El curso QMDM-2 cubrió los conceptos básicos de las estadísticas y estábamos expuestos a Excel y R por primera vez. En nuestro tercer semestre, tuvimos análisis de negocios del Prof. Yugandhar que se sumergió más en el análisis. También era hora de decidir las opciones de las asignaturas optativas del próximo año. Fue el proceso de toma de decisiones más simple, ya que decidí tomar todo el curso que estaban bajo análisis. Tuve dificultades para comprender las opciones, el futuro y el derivado (soy malo en las finanzas, pero lo tomé, ya que era un requisito previo para el análisis de riesgos financieros). Bueno, a pesar de que hice la OFD, FRA fue tranquilo para mí. Web & Social Media Analytics fue otro curso interesante (también fui el coordinador del curso) que dio información sobre Google Analytics y otros análisis de redes sociales. Puede encontrar mi proyecto final del curso aquí en la campaña Make in India. Pero mi curso favorito fue la visualización de datos y el análisis que el profesor Raghavshyam y el Prof. Vivek Anand. La única razón por la que me encantó este curso es que cambió mi percepción. Aprendí que la visualización de datos está soñando con un propósito. El propósito de la visualización es la idea, no las imágenes. El modelo analítico avanzado del Prof. Krishna Mohan y la inteligencia empresarial del Prof. Vinit Thakur fueron algunos de los otros cursos que disfruté en Great Lakes. Comité de Análisis bien, dado que mi elección e interés obvios era para el análisis, decidí unirme al comité de análisis en Great Lakes. El primer año del comité fue lleno de diversión. Organizamos una competencia de aprendizaje automático interno llamado DataTytics y un concurso de blogs. Fue solo el comienzo, ya que establecemos nuestros caminos en un objetivo más grande de organizar una competencia de análisis de nivel nacional. Marcamos nuestro comienzo en el B-School Fest anual L’Antitude 1305 con «Data Tales-Beyond Infinity», una competencia de aprendizaje automático organizado en asociación con Analytics Vidhya. Fui responsable de desarrollar el estudio de caso para la competencia. Las cosas estaban muy fuera de control, ya que el evento fue un gran éxito. Con más de 200 participantes, tuvimos equipos de ISB, IIMS e IIT se reducen a Great Lakes para las finales. Fue un gran trabajo en equipo: dos personas a las que nunca puedo olvidar es Akshay Jasoriya y Rahul Namdev de PGPM 2017 Batch. Un pequeño equipo comprometido a causar más grande que ellos mismos puede lograr absolutamente cualquier cosa. El comité de análisis del primer año fue uno de los mejores equipos con los que he trabajado. Era el momento de la pasantía y cuando regresé al campus, ya había un comité para el análisis. Había 10 nuevos miembros del lote PGPM. Más tarde reclutamos a 3 miembros del lote de primer año PGDM. Me resultó difícil alimentar a mi equipo con dos pizzas (porque la pizza no era lo suficientemente grande). Pero, todavía fue un buen año. Tuvimos un taller sobre la extracción de datos de Twitter, boletín y la segunda edición de Data Tales. Un equipo grande, pero debo reconocer algunos nuevos amigos que hice: Abinandan A, Krishna Prabhat, Susan Abraham y Vinotha Krishna. Participando en el campeonato BADM en NMIMS Mumbai con Akshaya y Vignesh también tuvimos la oportunidad de participar en el Campeonato de Análisis de Negocios y Minería de Datos de Finales 2017 con mis compañeros de equipo Akshaya S y Vignesh S. Era un hackaton de 24 horas (una noche sin sueño) que también con SAS (no tenía ninguna pista lo que estaba haciendo). Pero, fue una buena experiencia de aprendizaje para nosotros. Entonces, si está interesado en el análisis, Great Lakes es uno de los mejores lugares para estar. No era un estudiante de ingeniería, pero aprender un nuevo idioma como R & Python fue muy divertido. Me decepcionó el hecho de que no podía especializarme en análisis; sin embargo, todavía tengo muchos recuerdos y aprendizaje al final del día. Comente a continuación, si desea saber algo sobre Analytics en Great Lakes