
1. ¿Qué es?
1.1. Dentro de la mineria de datos, son procedimientos o algoritmos que se encargan de agrupar un conjunto de datos u objetos basandose en sus características.
1.1.1. Son algoritmos de aprendizaje no supervisado por lo que se trabaja con variables no etiquetadas.
2. Existen diferentes formas de implementar la clasificación y/o partición de los datos, basandose en diferentes modelos, los más importantes son:
2.1. Centralizado
2.1.1. Cada clúster se representa con un solo vector principal.
2.2. Distribuido
2.2.1. Los clusters se construyen usando distribuciones estadisticas.
2.3. Conectivo
2.3.1. Se basa en una funcion de distancia entre los elementos del conjunto.
2.4. Grupos
2.5. Grafos
2.5.1. la organización y relación entre los miembros del conjunto se define mediante un grafo.
2.6. Densidad
2.6.1. Los miembros del cluster, se agrupan en regiones donde hay conjuntos de datos densos y similares.
3. Existen diferentes algoritmos de clasificación, por ejemplo:
3.1. K-Means: uno de los mas populares.
3.1.1. divide los datos en K clusters, donde K es un valor definido.
3.1.1.1. Se calculan mediande la minimización de la suma de las distancias al cuadrado de cada punto con el centroide del cluster asignado.
3.1.1.1.1. Es iterativo y finaliza cuando la suma de las distancias al cuadrado no cambia.
3.2. X-Means
3.2.1. Como K-means
3.2.1.1. En este el número de clusters es una media optimizada de K-means.
3.2.1.1.1. No se establece la cantidad de clusterssi no que el mismo algoritmo determina la más eficiente.
3.3. DBSCAN
3.3.1. Agrupa puntos en clusters basandose en:
3.3.1.1. Densidad
3.3.1.2. Conectividad
3.3.2. Puntos en regiones menos densas catalogados como RUIDO.
3.3.3. Se basa en dos parámetros:
3.3.3.1. Radio de busqueda de vecinos
3.3.3.2. Número mínimo de puntos en una región densa.
3.4. Mean Shift
3.4.1. Busca los máximos locales de una función de densidad estimada con base en los datos.
3.4.1.1. Los puntos que convergen a un mismo máximos local se agrupan en cluster
3.4.1.1.1. Es iterativo, en donde cada punto se mueve a una región mas densa.
3.5. Clustering espectral
3.5.1. Basado en la geometría de los datos.
3.5.1.1. Hace uso de la matriz de similitud entre los puntos.
3.5.1.1.1. Una vez hayadas las caracterisiticas lineales del espacio donde los puntos son mas separables, utiliza métodos como K-means para encontrar los clusters.