Todo lo que necesitas saber sobre tecnología

Etiqueta: Estadística

Descripción teórica de la regresión lineal

Descripción teórica de la regresión lineal

La regresión lineal es un tipo de modelo estadístico donde se establece una relación lineal entre una o más variables independientes a una variable dependiente. Es uno de los tipos más simples de modelado predictivo. Los modelos de regresión lineal/múltiple se pueden representar en forma de una ecuación y = a1x1 + a2x2 + … + ansn + b donde y es la variable dependiente, xn es las variables independientes y A es el coeficiente de Xn y B es la intersección. Entonces, ¿qué es un coeficiente? Son pesos establecidos a las variables independientes en función de la importancia del modelo. Tomemos un ejemplo de una regresión lineal simple que tiene una ventas de variables dependientes y una variable independiente llamada Price. Esto puede representarse en forma de ventas de ecuación = A*Price + B donde A es un coeficiente de precio. Explica el cambio en las ventas cuando el precio cambia en 1 unidad. B es el término de intercepción, que también es el valor de predicción que obtiene cuando el precio = 0, sin embargo, debemos entender que siempre hay un término de error asociado con él. Entonces, ¿cómo se reduce el error en el modelo? La línea de mejor ajuste, el objetivo principal de la mejor línea de ajuste es garantizar que los valores predichos estén más cerca de nuestros valores reales o observados. Debemos minimizar la diferencia entre los valores predichos por nosotros y los valores observados. Se denomina errores. Una técnica para reducir el error es mediante el uso de mínimos cuadrados ordinarios (OLS). Intenta reducir la suma de los errores al cuadrado ∑[Actual(Sales) – Predicted(Sales)]² Al encontrar el mejor valor posible del coeficiente de regresión A. Esta técnica penaliza un mayor valor de error mucho más en comparación con uno más pequeño para que haya una diferencia significativa entre cometer grandes errores y pequeños errores. Por lo tanto, es fácil diferenciar y seleccionar la mejor línea de ajuste. También puede usar otras técnicas como el mínimo generalizado, porcentaje mínimo cuadrado, total de mínimos cuadrados, desviación menos absoluta y muchas más. Sin embargo, OLS es fácil de analizar y ayuda a diferenciar y calcular el descenso de gradiente. La interpretación de OLS también es mucho más fácil que otras técnicas de regresión. Suposiciones en la regresión lineal Los siguientes son algunos de los supuestos que hacemos en un modelo de regresión lineal: existe una relación lineal y aditiva entre las variables dependientes e independientes. Por lineal, significa que el cambio en la variable independiente por 1 cambio de unidad en la variable dependiente es constante. Por aditivo, se refiere al efecto de x en y es independiente de otras variables. No existe multicolinealidad (presencia de correlación en variables independientes). No debe haber correlación entre las variables independientes. Si las variables están correlacionadas, se vuelve extremadamente difícil para el modelo determinar el verdadero efecto de IV en DV. Los términos de error deben poseer una varianza constante y una ausencia de ella conduce a la heterocedasticidad. Los términos de error no deben estar correlacionados. La presencia de correlación en los términos de error se denomina autocorrelación. Afecta drásticamente los coeficientes de regresión y los valores de error estándar, ya que se basan en la suposición de términos de error no correlacionados. La variable dependiente y los términos de error deben poseer una distribución normal. Violaciones de seguimiento de los supuestos «¿Cómo sé si estos supuestos se violan en mi modelo de regresión lineal?». Bueno, tienes varias formas de averiguarlo. Los valores residuales versus ajustados se paran en la gráfica entre sus valores residuales y ajustados no debe mostrar ningún patrón. Si observa cualquier curva o patrones en forma de U, significa que no hay una no linealidad en el conjunto de datos. Si observa un patrón de forma del embudo, significa que sus datos sufren de heteroscedasticidad: los términos de error tienen una varianza no constante. Normalidad gráfica QQ Se utiliza para determinar la distribución normal de los errores y utiliza un valor estandarizado de residuos. Esta trama debería mostrar una línea recta. Si encuentra una línea curva y distorsionada, entonces sus residuos tienen una distribución no normal. Durbin Watson Statistic (DW) Esta prueba se usa para verificar la autocorrelación. El valor se encuentra entre 0 y 4. Si el valor de prueba para DW = 2, significa que no hay autocorrelación. Si el valor es entre 0 y 2, implica una autocorrelación positiva, mientras que un valor mayor AN 2 implica autocorrelación negativa. Factor de inflación de varianza (VIF) Esta métrica también se usa para verificar la multicolinealidad. VIF de menos de 4 implica que no hay multicolinealidad, pero VIF> = 10 sugiere una alta multicolinealidad. Alternativamente, también puede observar el valor de tolerancia (1/VIF) para determinar la correlación en variables independientes. Medición del rendimiento del modelo ¿Tenemos una métrica de evaluación para verificar el rendimiento del modelo? R CUADRADO: Determina cuánto de la variación total en y (variable dependiente) se explica por la variación en x (variable independiente). El valor varía de 0 a 1. R Square = 1 – (Suma de error cuadrado/Suma de Total cuadrado) = 1 – ∑[YActual – YPredicted]²/ ∑[YActual – YMean]² Supongamos que obtuvo un valor de 0.432 como R Square para el ejemplo anterior. Significa que solo el 43.2% de la varianza en las ventas se explica por el precio. En otras palabras, si sabe el precio, tendrá una información del 43.2% para hacer una predicción precisa sobre las ventas. Por lo tanto, cuanto mayor sea el valor de R Square, mejor será el modelo (más cosas a considerar). ¿Puede R-Squared ser negativo? Sí, cuando su modelo no tiene una intersección. Sin una intersección, la regresión podría ser peor que la media de la muestra en términos de predecir la variable objetivo. Si el ajuste es realmente peor que simplemente ajustar una línea horizontal, entonces R-Square es negativo. Cuando el número de variables independientes en su modelo es más, es mejor considerar r² ajustado que r² para determinar el ajuste del modelo. R-cuadrado ajustado: un problema con R² es que cuando el valor aumenta proporcionalmente al número de variables aumenta. Independientemente de si la nueva variable realmente está agregando información, el valor aumenta. Para superar este problema, usamos R² ajustado que no aumenta (permanece igual o disminuye) a menos que la variable recién agregada sea realmente útil. Por lo tanto, R-cuadrado ajustado es una forma modificada de R-cuadrado que se ha ajustado para el número de predictores en el modelo. Incorpora el grado de libertad del modelo. El R-cuadrado ajustado solo aumenta si el nuevo término mejora la precisión del modelo. R² ajustado = 1-((1-r²) (N-1))/(N-P-1) donde, r² = muestra r cuadrado, p = número de predictores, n = estadísticas totales de tamaño de muestra F: evalúa la importancia general del modelo. Es la relación de varianza explicada por el modelo por varianza inexplicable. Su valor puede variar entre cero y cualquier número grande. Naturalmente, más altas las estadísticas F, mejor el modelo. Otras métricas para evaluar el error medio cuadrado (MSE): este es un error cuadrado medio. Tiende a amplificar el impacto de los valores atípicos en la precisión del modelo. Por ejemplo, si la Y real es 5 y la Y predictiva es 25, el MSE resultante sería ∑ (25-5) ² = 400. Error absoluto medio (MAE): es la diferencia entre el valor real y predicho. Para el ejemplo anterior, el MAE sería ∑ (25-5) = 20 Error cuadrado medio raíz (RMSE): se interpreta como cuán lejos es el promedio de los residuos de cero. Nullifica el efecto cuadrado de MSE por raíz cuadrada y proporciona el resultado en unidades originales como datos. En el ejemplo, el RMSE sería √∑ (25-5) ² = 20. Tenga en cuenta que los valores más bajos de RMSE indican un mejor ajuste.

Descripción teórica de la regresión lineal

Guía de principiantes para la regresión logística

Definición: La regresión logística es un método estadístico que ayuda a analizar un conjunto de datos en el que hay una o más variables independientes y tiene una variable dependiente que es binaria o dicotómica (solo hay dos resultados posibles). Fue desarrollado por el estadístico David Cox en 1958. La variable dependiente solo puede tomar dos valores, es decir, 0 o 1, sí o no, predeterminado o ningún valor predeterminado, etc. Los factores o variables independientes pueden ser variables categóricas o numéricas. Aplicación: la regresión logística se usa para predecir un resultado binario. Una compañía de tarjetas de crédito puede construir un modelo, decidir si emitir una tarjeta de crédito a un cliente o no según varios parámetros. El modelo ayudará a la compañía a identificar si el cliente va a «incumplimiento» o «no predeterminado» en esta tarjeta de crédito (también llamada modelado de propensión predeterminada). Del mismo modo, en el sector de la salud, se puede utilizar para predecir el resultado de una enfermedad (ya sea que el sujeto sufra de una enfermedad en particular o no) en función de varias variables como la temperatura corporal, la presión, la edad, etc. El modelo es: logit (p) = a + b1x1 + … + bnxn, ​​donde logit (p) = ln {p/(1- 1- p)} y n es la probabilidad esperada de un evento natural y logits. Entrenamiento del modelo (usando R) El conjunto de datos se llama Titanic y contiene 4 variables independientes: edad del pasajero, género del pasajero, clase de viajes (primera, segunda y tercera clase) y tarifa. La variable dependiente es la supervivencia (ya sea que el pasajero sobreviviera o no) el siguiente código se ejecutó en R para crear un modelo GLM simple para el conjunto de datos: Titanic <- read.csv ("titanic.csv") titanic $ class <- as.factor (titanic $ class) titanic.glm <- glm (supervival ~ age+gender+class+tarifa, data = titanic, titanic, titanic, titanic, Family = "Binomial") Resumen (Titanic.Glm) Los resultados del modelo se resumen a continuación: Interpretando el modelo El coeficiente asociado con el género variable es -2.4935, por lo que las probabilidades de sobrevivir para un hombre es exp (-2.4935) = 0.082 veces que de una mujer de la misma edad, clase y tarifa. El coeficiente para la edad = -0.034313 que se interpreta como el cambio esperado en las probabilidades de registro para un aumento de una unidad en la edad. La probabilidad se puede calcular mediante el uso de la función exponencial (EXP (-0.034)) para obtener valor = 0.9662689, lo que significa que esperamos ver una disminución del 3.37% en las probabilidades de supervivencia, para un aumento de una unidad en la edad. Medición del rendimiento del modelo 1. AIC (criterios de información de Akaike): es una medida de qué tan bien el modelo se ajusta a los datos y qué tan complejo es el modelo. Es la medida del ajuste que penaliza el modelo para el número de coeficientes del modelo. Le ayuda a encontrar el modelo de mejor ajuste que utiliza la menor cantidad de variables y, por lo tanto, preferimos un modelo con AIC mínimo. Pero no dirá nada sobre la calidad absoluta. AIC = -2 (Log -Likelilidad) + 2K donde: K es el número de variables en el modelo más la intercepción. La probabilidad log es una medida del ajuste del modelo. Cuanto mayor sea el número, mejor será el ajuste. 2. Desviación nula y desviación residual: la desviación nula muestra qué tan bien se predice la variable de respuesta mediante un modelo que incluye solo la intersección. Baje el valor, mejor el modelo. La desviación residual indica la respuesta predicha por un modelo al agregar variables independientes. Baje el valor, mejor el modelo. 3. Algoritmo de puntuación de Fisher: es un derivado del método de Newton para resolver los problemas de máxima probabilidad numéricamente. 4. Matriz de confusión: no es más que la representación tabular de los valores reales y predichos que ayudarán a evaluar el rendimiento de un modelo de clasificación. Terminologías Positivos verdaderos (TP): estos son casos en los que predijimos que sí, y el resultado real también fue sí. Verdadero negativo (TN): predijimos que no, y el resultado real tampoco fue falso positivo (FP): predijimos que sí, pero lo real era no. (También conocido como "error tipo I". (También conocido como "error de tipo II"). Algunas métricas importantes de la precisión de la matriz de confusión del modelo = (verdaderos positivos + negativos verdaderos) / Número total de observaciones tasa de clasificación errónea o tasa de error = (falsos positivos + falsos negativos) / Número total de observaciones = 1 - Tasa positiva verdadera de precisión (también conocido como "sensibilidad" o "recordar") = TP / (TP + fn) Tasa de falso) FN/(TP+FN) = 1 Tasa negativa verdadera de sensibilidad (también conocida como "especificidad") = TN/(TN+FP) Tasa falsa positiva = 1-Especificidad = FP/(TN+FP) 5. Curva de características operativas (ROC) receptor ayuda a visualizar el rendimiento del modelo. Es una parcela de la verdadera tasa positiva (sensibilidad) contra la tasa de falsos positivos (1 especificidad). El área bajo la curva (AUC) (también conocida como índice de precisión (a) o índice de concordancia) es una métrica de rendimiento para la curva ROC. Más alto en el área bajo la curva, mejor el poder de predicción del modelo. Una prueba perfecta tiene un área debajo de la curva ROC como 1. El peor modelo (modelo inútil) tendrá el AUC como 0.5. Cuanto más cerca del gráfico esté a los bordes superior e izquierdo, más preciso será el modelo. Del mismo modo, cuanto más cerca del gráfico a la diagonal, menos precisa es la prueba.

Descripción teórica de la regresión lineal

Introducción a ANOVA | Bharat s raj

ANOVA (análisis de varianza) es una técnica estadística utilizada para verificar si los medios de dos o más grupos son significativamente diferentes entre sí. Puede parecer extraño que se llame «análisis de varianza» en lugar de «análisis de medios». Sin embargo, el nombre es apropiado ya que hacemos inferencias sobre las medias analizando la varianza. Si solo comparamos dos medias, ANOVA producirá los mismos resultados que la prueba t para muestras independientes (si comparamos dos grupos diferentes) o la prueba t para muestras dependientes (si comparamos dos variables en un conjunto de observaciones). Entonces, ¿por qué no usar múltiples pruebas t? Si tuviera que realizar múltiples pruebas t para comparar más de dos muestras, tendrá un efecto compuesto en la tasa de error del resultado. Aplicación: Considere un escenario en el que obtenga una muestra de los ingresos anuales de los empleados de tres geografías diferentes. Es posible que desee comparar si hay una diferencia en el ingreso promedio de los empleados en función de las geografías. En este caso, usaría ANOVA para comparar el ingreso promedio. Otra aplicación de ANOVA se puede encontrar en el sector médico. Para comprender un método de tratamiento confiable para una enfermedad, se crearían múltiples grupos de prueba (basados ​​en la metodología de cura). Intentarían medir la cantidad de días que se necesita para curar para cada grupo de prueba. Aquí, ANOVA se puede usar para probar/refutar si todos los tratamientos de medicamentos fueron igualmente efectivos o no. Suposiciones Los siguientes son los supuestos en ANOVA: cada muestra de grupo se extrae de una población normalmente distribuida. Las poblaciones tienen una varianza común que las muestras se dibujan independientemente entre sí dentro de cada muestra, las observaciones se muestrean aleatoria e independientemente de las terminologías de las terminologías Grand Media: la media es un promedio simple o aritmético de un rango de valores. En ANOVA, utilizamos dos tipos de medias: la gran media (media de toda la muestra) y las medias de muestra grupal (media de cada grupo individual). Hipótesis: una hipótesis es una declaración que se sugiere como una posible explicación para una situación o condición particular, pero que aún no se ha demostrado que sea correcta. En el caso de ANOVA, tenemos una hipótesis nula y una hipótesis alternativa. Hipótesis nula: todas las medias de muestra son iguales, o no tienen ninguna diferencia significativa. Hipótesis alternativa: al menos una de las medias de muestra es diferente del resto de las medias de la muestra. Tenga en cuenta que todavía no podemos saber qué grupo es específicamente diferente del resto de los demás. Variabilidad entre grupos (efecto cuadrado medio): se refiere a variaciones entre las distribuciones de grupos individuales, ya que los valores dentro de cada grupo son diferentes. Para calcular el efecto cuadrado medio, observamos cada muestra para calcular la diferencia entre su media y la gran media. Suma de cuadrado para la variabilidad entre grupos (SSB): es el agregado de las diferencias cuadradas entre la media de la muestra y la gran media. Suma media del cuadrado para la variabilidad entre grupos (MSB): se calcula dividiendo la suma del cuadrado (variabilidad entre grupos) y los grados de libertad (número de medias de muestra-1) Variabilidad dentro del grupo (efecto cuadrado medio): se refiere a variaciones causadas por diferencias dentro de los grupos individuales, ya que no todos los valores dentro de cada grupo son los mismos. Cada muestra se considera de forma independiente, no hay interacción entre muestras y se calcula la variabilidad entre los puntos individuales en la muestra. Suma de cuadrado para la variabilidad dentro del grupo (SSW): es el agregado de la desviación al cuadrado de cada valor de su media de muestra respectiva. Suma media del cuadrado para la variabilidad dentro del grupo (MSW): se calcula dividiendo la suma de cuadrado (variabilidad dentro del grupo) y los grados de libertad (la suma de los grados de libertad individuales para cada muestra). Dado que cada muestra tiene grados de libertad iguales a uno menos que sus tamaños de muestra, y hay k muestras, los grados totales de libertad son k menos que el tamaño total de la muestra: df = n – k. Variación total: es la suma de los cuadrados de las diferencias de cada media con la gran media que también es la suma de SSB y SSW. La idea total detrás del análisis de varianza es comparar la relación de varianza entre grupos con la varianza dentro del grupo. Si la varianza causada por la interacción entre las muestras es mucho mayor en comparación con la varianza que aparece dentro de cada grupo, entonces es porque las medias no son las mismas. F estadística de prueba: mide si los medios de diferentes muestras son significativamente diferentes o no. Se calcula dividiendo MSB y MSW. Bajo la relación F, más similares son las medias de muestra. En ese caso, no podemos rechazar la hipótesis nula. La estadística F calculada aquí se compara con el valor crítico F para llegar a una conclusión. Si el valor del estadístico F calculado es más que el valor crítico F (para un nivel específico de α/significancia), entonces rechazamos la hipótesis nula. Tabla de resumen: Variabilidad Sume de los grados cuadrados de la libertad Media Square F Estadística entre SSB K-1 SSB/(K-1) MSB/MSW Dentro de SSW N-K SSW/(N-K) Total SSB + SSW N-1 Tipos de ANOVA PRUEBA para análisis univariados. El ANOVA unidireccional se usa cuando estamos interesados ​​en estudiar el efecto de una variable independiente (IDV)/factor en una población, mientras que se usa ANOVA bidireccional para estudiar los efectos de dos factores en una población al mismo tiempo. One Way ANOVA en Excel 2013 Los siguientes pasos lo ayudarán a llevar a cabo ANOVA en Microsoft Excel 2013: Paso 1: Ingrese sus datos en filas y columnas en Excel. Si tiene tres grupos como se muestra en el ejemplo, extienda los datos en tres columnas. Paso 2: haga clic en la pestaña «Datos» en la cinta y luego haga clic en «Análisis de datos». Si no ve el análisis de datos, cargue el complemento ‘Toolpak de análisis de datos’. Se puede cargar haciendo clic en «Opciones: en el menú Archivo. Luego haga clic en» complementos «y podrá administrar sus complementos. Paso 3: haga clic en» Factor único ANOVA «y luego haga clic en» Aceptar «. Luego, ingrese el rango de valores y establezca el valor Alpha (predeterminado = 0.05, 95% de confianza). Haga clic en» Aceptar «para ver la salida de Excel. Podemos rechazar la hipótesis nula y concluir que hay una diferencia significativa entre las medias de las cuatro muestras. No ve el análisis de datos, cargue el complemento de ‘Toolpak de datos’. no logró rechazar la hipótesis nula (p <0.05) y, por lo tanto, no hay diferencia en los medios.

Descripción teórica de la regresión lineal

Descripción general teórica al análisis de clúster

El análisis de clúster es una técnica estadística que lo ayuda a dividir sus puntos de datos en varios grupos, de modo que los puntos de datos en los mismos grupos son más similares a otros puntos de datos en el mismo grupo que los de otros grupos. En una palabra simple, es el proceso de organizar datos en grupos cuyos miembros son similares de alguna manera. Se considera la técnica de aprendizaje no supervisada más importante (sin variable dependiente). Aplicaciones Algunas de las aplicaciones del análisis de clúster son: Marketing: Business recopila una gran cantidad de datos sobre sus clientes existentes y potenciales. La agrupación se puede utilizar para segmentar a los clientes en grupos y los ayudará en el marketing objetivo. Internet: la agrupación se puede utilizar para agrupar los resultados de búsqueda en varios grupos basados ​​en la consulta del usuario. Seguro: Identificación de grupos de titulares de pólizas de seguro de automóvil con algunas características interesantes. También se utiliza en la detección de anomalías, la segmentación de imágenes, el análisis de redes sociales, etc. Algoritmos de agrupación de algoritmos populares se pueden clasificar en muchos tipos. Sin embargo, se pueden clasificar en dos tipos principales: la agrupación jerárquica de un algoritmo de agrupación jerárquica se basa en la unión entre los dos grupos más cercanos. Hay dos enfoques para la agrupación jerárquica: el método aglomerativo: comienza con la clasificación de todos los puntos de datos en grupos separados y luego agregándolos a medida que disminuye la distancia. Los dos grupos ‘más cercanos’ (más similares) se combinan y esto se realiza repetidamente, todos los sujetos están en un grupo. Al final, el número óptimo de grupos se elige a partir de todas las soluciones de clúster. Métodos divisivos, en los que todos los puntos de datos comienzan en el mismo clúster y la estrategia anterior se aplica en reversa hasta que cada sujeto esté en un clúster separado. Además, la elección de la función de distancia es subjetiva. Tenga en cuenta que los métodos aglomerativos se usan con mayor frecuencia que los métodos divisivos. Estos modelos son muy fáciles de interpretar, pero carecen de la escalabilidad para manejar grandes conjuntos de datos. En este artículo, explicaré cómo se puede hacer la agrupación jerárquica utilizando el método aglomerativo. Los resultados de la agrupación jerárquica se pueden interpretar utilizando un dendrograma. Distancia Un componente importante de un algoritmo de agrupación es la medida de distancia entre los puntos de datos. La decisión de fusionar dos grupos se toma sobre la base de la cercanía de estos grupos (distancia). Hay múltiples métricas para decidir la cercanía de dos grupos: distancia euclidiana: || ab || 2 = √ (σ (ai-bi)) distancia euclidiana cuadrada: || ab || 22 = σ ((ai-bi) 2) distancia de manhattan: || ab || 1 = σ | ai-bi | Distancia máxima: || AB || Infinity = maxi | ai-bi | Distancia de Mahalanobis: √ ((AB) T S-1 (-B)) {donde, S: Matriz de covarianza} Usamos estas métricas de distancia según la metodología. Según el método de aglomeración, también hay varios métodos diferentes utilizados para determinar qué grupos deben unirse en cada etapa. Algunos de los métodos principales se resumen a continuación: Método del vecino más cercano (método de enlace único): en este método, la distancia entre dos grupos se define como la distancia entre los dos miembros más cercanos o vecinos. Este método es relativamente simple, pero a menudo se critica porque no tiene en cuenta la estructura del clúster y puede dar lugar a un problema llamado encadenamiento por el cual los grupos terminan siendo largos y descuidados. El método de vecino más lejos (método de enlace completo): en este caso, la distancia entre dos grupos se define como la distancia máxima entre los miembros, es decir, la distancia entre los dos sujetos que están más separados. También es sensible a los valores atípicos. Método de enlace promedio (entre grupos) (a veces denominado UPGMA): la distancia entre dos grupos se calcula como la distancia promedio entre todos los pares de sujetos en los dos grupos. Método del centroide: se calcula el centroide (valor medio para cada variable) de cada clúster y se usa la distancia entre los centroides. Los grupos cuyos centroides están más cerca se fusionan. Método de Ward: en este método, se combinan todos los pares posibles de grupos y se calcula la suma de las distancias cuadradas dentro de cada grupo. Esto se sume sobre todos los grupos. Se elige la combinación que da la suma más baja de cuadrados. Seleccionando el número de grupos Una vez que se ha llevado a cabo el análisis del clúster, debemos seleccionar la ‘mejor’ solución de clúster. Al realizar un análisis jerárquico de clúster, el proceso puede representarse en un diagrama conocido como dendrograma. Un dendrograma ilustra qué grupos se han unido en cada etapa del análisis y la distancia entre los grupos al momento de la unión. Si hay un gran salto en la distancia entre los grupos de una etapa a otra, esto sugiere que en una etapa los grupos que están relativamente juntos se unieron, mientras que, en la siguiente etapa, los grupos que se unieron estaban relativamente lejos. Esto implica que el número óptimo de grupos puede ser el número presente justo antes de ese gran salto en la distancia. Por lo tanto, la mejor opción del no. de grupos es el no. de líneas verticales en el dendrograma cortado por una línea horizontal que puede transversar la distancia máxima verticalmente sin intersectar un clúster. Los métodos de agrupación no jerárquicos o de K-means k significa un algoritmo de agrupación iterativo que tiene como objetivo encontrar máximos locales en cada iteración. La noción de similitud se deriva por la cercanía de un punto de datos al centroide de los grupos. En este modelo, el no. de los grupos requeridos al final deben mencionarse de antemano, lo que significa que debe tener conocimiento previo del conjunto de datos. Estos modelos se ejecutan iterativamente para encontrar el Optima local. El análisis no jerárquico del clúster tiende a usarse cuando se involucran grandes conjuntos de datos. Sin embargo, es difícil saber cuántos grupos es probable que tenga y, por lo tanto, el análisis. Puede ser muy sensible a la elección de los centros de clúster iniciales. Metodología: elija centros de clúster iniciales (esencialmente, este es un conjunto de observaciones que están muy separadas: cada sujeto forma un grupo de uno y su centro es el valor de las variables para ese tema). Asigne cada sujeto a su clúster ‘más cercano’, definido en términos de la distancia al centroide. Encuentre los centroides de los grupos que se han formado vuelven a calcular la distancia de cada sujeto a cada centroide y mueven observaciones que no están en el clúster al que están más cerca. Continúe hasta que los centroides permanezcan relativamente estables, es decir, cuando no habrá más cambios de datos entre dos grupos para dos repeticiones sucesivas. Marcará la terminación del algoritmo si no se menciona explícitamente. Mejor enfoque: primero use una agrupación jerárquica para generar un conjunto completo de soluciones de clúster y establecer el número apropiado de grupos. Luego, usa un método K-Means (no jerárquico). Otros algoritmos de agrupación, todos, aunque K-means y la agrupación jerárquica son los métodos populares, existen otros algoritmos de agrupación como los fuzzy c-means y la mezcla de gaussianos. La fuzzy c-means clustering c-means (FCM) es una técnica en la que un conjunto de datos se agrupa en n grupos con cada punto de datos en el conjunto de datos que pertenece a cada clúster hasta cierto punto (un algoritmo de clúster superpuesto). Por ejemplo, un cierto punto de datos que se encuentra cerca del centro de un clúster tendrá un alto grado de pertenencia o membresía a ese clúster y otro punto de datos que se encuentra lejos del centro de un clúster tendrá un bajo grado de pertenencia o membresía a ese clúster. Comienza con una suposición inicial para los centros de clúster que pretenden marcar la ubicación media de cada clúster. El algoritmo asigna cada punto de datos una calificación de membresía para cada clúster. Al actualizar iterativamente los centros de clúster y los grados de membresía para cada punto de datos, mueve iterativamente los centros de clúster a la ubicación correcta dentro de un conjunto de datos. La ventaja con este algoritmo es que ofrece el mejor resultado para el conjunto de datos superpuestos y es relativamente mejor que el algoritmo de K-means. Sin embargo, tenemos que especificar el número de grupos de antemano. Mezcla de gaussianos Es un algoritmo de agrupación de probabilidad. Cada clúster puede representarse matemáticamente mediante una distribución paramétrica, como un gaussiano (continuo) o un poisson (discreto). Por lo tanto, todo el conjunto de datos se modela mediante una mezcla de estas distribuciones. Los modelos de mezcla gaussiana (GMMS) suponen que todos los puntos de datos se generan a partir de una mezcla de un número finito de distribuciones gaussianas con parámetros desconocidos. Asigna cada observación a un clúster maximizando la probabilidad posterior de que un punto de datos pertenezca a su clúster asignado. El método para asignar un punto de datos a exactamente un clúster se llama agrupación dura. Los GMM se han utilizado para la extracción de características de los datos del habla, y también se han utilizado ampliamente en el seguimiento de objetos de múltiples objetos, donde el número de componentes de la mezcla y sus medios predicen ubicaciones de objetos en cada cuadro en una secuencia de video. Si le gusta el artículo, comparta sus opiniones en la sección de comentarios a continuación

Funciona con WordPress & Tema de Anders Norén