El análisis de clúster es una técnica estadística que lo ayuda a dividir sus puntos de datos en varios grupos, de modo que los puntos de datos en los mismos grupos son más similares a otros puntos de datos en el mismo grupo que los de otros grupos. En una palabra simple, es el proceso de organizar datos en grupos cuyos miembros son similares de alguna manera. Se considera la técnica de aprendizaje no supervisada más importante (sin variable dependiente). Aplicaciones Algunas de las aplicaciones del análisis de clúster son: Marketing: Business recopila una gran cantidad de datos sobre sus clientes existentes y potenciales. La agrupación se puede utilizar para segmentar a los clientes en grupos y los ayudará en el marketing objetivo. Internet: la agrupación se puede utilizar para agrupar los resultados de búsqueda en varios grupos basados ​​en la consulta del usuario. Seguro: Identificación de grupos de titulares de pólizas de seguro de automóvil con algunas características interesantes. También se utiliza en la detección de anomalías, la segmentación de imágenes, el análisis de redes sociales, etc. Algoritmos de agrupación de algoritmos populares se pueden clasificar en muchos tipos. Sin embargo, se pueden clasificar en dos tipos principales: la agrupación jerárquica de un algoritmo de agrupación jerárquica se basa en la unión entre los dos grupos más cercanos. Hay dos enfoques para la agrupación jerárquica: el método aglomerativo: comienza con la clasificación de todos los puntos de datos en grupos separados y luego agregándolos a medida que disminuye la distancia. Los dos grupos ‘más cercanos’ (más similares) se combinan y esto se realiza repetidamente, todos los sujetos están en un grupo. Al final, el número óptimo de grupos se elige a partir de todas las soluciones de clúster. Métodos divisivos, en los que todos los puntos de datos comienzan en el mismo clúster y la estrategia anterior se aplica en reversa hasta que cada sujeto esté en un clúster separado. Además, la elección de la función de distancia es subjetiva. Tenga en cuenta que los métodos aglomerativos se usan con mayor frecuencia que los métodos divisivos. Estos modelos son muy fáciles de interpretar, pero carecen de la escalabilidad para manejar grandes conjuntos de datos. En este artículo, explicaré cómo se puede hacer la agrupación jerárquica utilizando el método aglomerativo. Los resultados de la agrupación jerárquica se pueden interpretar utilizando un dendrograma. Distancia Un componente importante de un algoritmo de agrupación es la medida de distancia entre los puntos de datos. La decisión de fusionar dos grupos se toma sobre la base de la cercanía de estos grupos (distancia). Hay múltiples métricas para decidir la cercanía de dos grupos: distancia euclidiana: || ab || 2 = √ (σ (ai-bi)) distancia euclidiana cuadrada: || ab || 22 = σ ((ai-bi) 2) distancia de manhattan: || ab || 1 = σ | ai-bi | Distancia máxima: || AB || Infinity = maxi | ai-bi | Distancia de Mahalanobis: √ ((AB) T S-1 (-B)) {donde, S: Matriz de covarianza} Usamos estas métricas de distancia según la metodología. Según el método de aglomeración, también hay varios métodos diferentes utilizados para determinar qué grupos deben unirse en cada etapa. Algunos de los métodos principales se resumen a continuación: Método del vecino más cercano (método de enlace único): en este método, la distancia entre dos grupos se define como la distancia entre los dos miembros más cercanos o vecinos. Este método es relativamente simple, pero a menudo se critica porque no tiene en cuenta la estructura del clúster y puede dar lugar a un problema llamado encadenamiento por el cual los grupos terminan siendo largos y descuidados. El método de vecino más lejos (método de enlace completo): en este caso, la distancia entre dos grupos se define como la distancia máxima entre los miembros, es decir, la distancia entre los dos sujetos que están más separados. También es sensible a los valores atípicos. Método de enlace promedio (entre grupos) (a veces denominado UPGMA): la distancia entre dos grupos se calcula como la distancia promedio entre todos los pares de sujetos en los dos grupos. Método del centroide: se calcula el centroide (valor medio para cada variable) de cada clúster y se usa la distancia entre los centroides. Los grupos cuyos centroides están más cerca se fusionan. Método de Ward: en este método, se combinan todos los pares posibles de grupos y se calcula la suma de las distancias cuadradas dentro de cada grupo. Esto se sume sobre todos los grupos. Se elige la combinación que da la suma más baja de cuadrados. Seleccionando el número de grupos Una vez que se ha llevado a cabo el análisis del clúster, debemos seleccionar la ‘mejor’ solución de clúster. Al realizar un análisis jerárquico de clúster, el proceso puede representarse en un diagrama conocido como dendrograma. Un dendrograma ilustra qué grupos se han unido en cada etapa del análisis y la distancia entre los grupos al momento de la unión. Si hay un gran salto en la distancia entre los grupos de una etapa a otra, esto sugiere que en una etapa los grupos que están relativamente juntos se unieron, mientras que, en la siguiente etapa, los grupos que se unieron estaban relativamente lejos. Esto implica que el número óptimo de grupos puede ser el número presente justo antes de ese gran salto en la distancia. Por lo tanto, la mejor opción del no. de grupos es el no. de líneas verticales en el dendrograma cortado por una línea horizontal que puede transversar la distancia máxima verticalmente sin intersectar un clúster. Los métodos de agrupación no jerárquicos o de K-means k significa un algoritmo de agrupación iterativo que tiene como objetivo encontrar máximos locales en cada iteración. La noción de similitud se deriva por la cercanía de un punto de datos al centroide de los grupos. En este modelo, el no. de los grupos requeridos al final deben mencionarse de antemano, lo que significa que debe tener conocimiento previo del conjunto de datos. Estos modelos se ejecutan iterativamente para encontrar el Optima local. El análisis no jerárquico del clúster tiende a usarse cuando se involucran grandes conjuntos de datos. Sin embargo, es difícil saber cuántos grupos es probable que tenga y, por lo tanto, el análisis. Puede ser muy sensible a la elección de los centros de clúster iniciales. Metodología: elija centros de clúster iniciales (esencialmente, este es un conjunto de observaciones que están muy separadas: cada sujeto forma un grupo de uno y su centro es el valor de las variables para ese tema). Asigne cada sujeto a su clúster ‘más cercano’, definido en términos de la distancia al centroide. Encuentre los centroides de los grupos que se han formado vuelven a calcular la distancia de cada sujeto a cada centroide y mueven observaciones que no están en el clúster al que están más cerca. Continúe hasta que los centroides permanezcan relativamente estables, es decir, cuando no habrá más cambios de datos entre dos grupos para dos repeticiones sucesivas. Marcará la terminación del algoritmo si no se menciona explícitamente. Mejor enfoque: primero use una agrupación jerárquica para generar un conjunto completo de soluciones de clúster y establecer el número apropiado de grupos. Luego, usa un método K-Means (no jerárquico). Otros algoritmos de agrupación, todos, aunque K-means y la agrupación jerárquica son los métodos populares, existen otros algoritmos de agrupación como los fuzzy c-means y la mezcla de gaussianos. La fuzzy c-means clustering c-means (FCM) es una técnica en la que un conjunto de datos se agrupa en n grupos con cada punto de datos en el conjunto de datos que pertenece a cada clúster hasta cierto punto (un algoritmo de clúster superpuesto). Por ejemplo, un cierto punto de datos que se encuentra cerca del centro de un clúster tendrá un alto grado de pertenencia o membresía a ese clúster y otro punto de datos que se encuentra lejos del centro de un clúster tendrá un bajo grado de pertenencia o membresía a ese clúster. Comienza con una suposición inicial para los centros de clúster que pretenden marcar la ubicación media de cada clúster. El algoritmo asigna cada punto de datos una calificación de membresía para cada clúster. Al actualizar iterativamente los centros de clúster y los grados de membresía para cada punto de datos, mueve iterativamente los centros de clúster a la ubicación correcta dentro de un conjunto de datos. La ventaja con este algoritmo es que ofrece el mejor resultado para el conjunto de datos superpuestos y es relativamente mejor que el algoritmo de K-means. Sin embargo, tenemos que especificar el número de grupos de antemano. Mezcla de gaussianos Es un algoritmo de agrupación de probabilidad. Cada clúster puede representarse matemáticamente mediante una distribución paramétrica, como un gaussiano (continuo) o un poisson (discreto). Por lo tanto, todo el conjunto de datos se modela mediante una mezcla de estas distribuciones. Los modelos de mezcla gaussiana (GMMS) suponen que todos los puntos de datos se generan a partir de una mezcla de un número finito de distribuciones gaussianas con parámetros desconocidos. Asigna cada observación a un clúster maximizando la probabilidad posterior de que un punto de datos pertenezca a su clúster asignado. El método para asignar un punto de datos a exactamente un clúster se llama agrupación dura. Los GMM se han utilizado para la extracción de características de los datos del habla, y también se han utilizado ampliamente en el seguimiento de objetos de múltiples objetos, donde el número de componentes de la mezcla y sus medios predicen ubicaciones de objetos en cada cuadro en una secuencia de video. Si le gusta el artículo, comparta sus opiniones en la sección de comentarios a continuación