logo

Clustering gerarchico nel data mining

Il clustering gerarchico si riferisce a una procedura di apprendimento non supervisionata che determina cluster successivi sulla base di cluster precedentemente definiti. Funziona raggruppando i dati in un albero di cluster. Statistiche di clustering gerarchico trattando ciascun punto dati come un singolo cluster. L'endpoint fa riferimento a un diverso insieme di cluster, in cui ciascun cluster è diverso dall'altro cluster e gli oggetti all'interno di ciascun cluster sono uguali tra loro.

Esistono due tipi di clustering gerarchico

  • Clustering gerarchico agglomerativo
  • Clustering divisivo

Clustering gerarchico agglomerativo

Il clustering agglomerativo è uno dei tipi più comuni di clustering gerarchico utilizzato per raggruppare oggetti simili in cluster. Il clustering agglomerativo è noto anche come AGNES (Agglomerative Nesting). Nel clustering agglomerativo, ciascun punto dati funge da cluster individuale e in ogni fase gli oggetti dati vengono raggruppati con un metodo dal basso verso l'alto. Inizialmente, ogni oggetto dati si trova nel proprio cluster. Ad ogni iterazione, i cluster vengono combinati con cluster diversi fino a formare un cluster.

Algoritmo di clustering gerarchico agglomerativo

  1. Determinare la somiglianza tra gli individui e tutti gli altri cluster. (Trova matrice di prossimità).
  2. Considera ogni punto dati come un singolo cluster.
  3. Combina cluster simili.
  4. Ricalcolare la matrice di prossimità per ciascun cluster.
  5. Ripeti i passaggi 3 e 4 finché non ottieni un singolo cluster.

Comprendiamo questo concetto con l'aiuto della rappresentazione grafica utilizzando un dendrogramma.

Con l'aiuto della dimostrazione data, possiamo capire come funziona l'algoritmo reale. Qui non è stato effettuato alcun calcolo al di sotto del quale si presuppone tutta la vicinanza tra i cluster.

Supponiamo di avere sei diversi punti dati P, Q, R, S, T, V.

Clustering gerarchico nel data mining

Passo 1:

Considera ciascun alfabeto (P, Q, R, S, T, V) come un singolo cluster e trova la distanza tra il singolo cluster e tutti gli altri cluster.

Passo 2:

Ora unisci i cluster comparabili in un unico cluster. Diciamo che il cluster Q e il cluster R sono simili tra loro in modo da poterli unire nel secondo passaggio. Infine, otteniamo i cluster [ (P), (QR), (ST), (V)]

Passaggio 3:

Qui, ricalcoliamo la prossimità secondo l'algoritmo e combiniamo i due cluster più vicini [(ST), (V)] insieme per formare nuovi cluster come [(P), (QR), (STV)]

Passaggio 4:

Ripeti lo stesso processo. I cluster STV e PQ sono comparabili e combinati insieme per formare un nuovo cluster. Ora abbiamo [(P), (QQRSTV)].

Passaggio 5:

Infine, i restanti due cluster vengono uniti per formare un unico cluster [(PQRSTV)]

Clustering gerarchico divisivo

Il clustering gerarchico divisivo è esattamente l’opposto del clustering gerarchico agglomerativo. Nel clustering gerarchico divisivo, tutti i punti dati sono considerati un singolo cluster e in ogni iterazione i punti dati che non sono simili vengono separati dal cluster. I punti dati separati vengono trattati come un singolo cluster. Rimangono infine N cluster.

Clustering gerarchico nel data mining

Vantaggi del clustering gerarchico

  • È semplice da implementare e in alcuni casi fornisce il miglior risultato.
  • È semplice e si traduce in una gerarchia, una struttura che contiene più informazioni.
  • Non è necessario che specifichiamo in anticipo il numero di cluster.

Svantaggi del clustering gerarchico

  • Rompe i grandi grappoli.
  • È difficile gestire grappoli di dimensioni diverse e forme convesse.
  • È sensibile al rumore e ai valori anomali.
  • L'algoritmo non può mai essere modificato o cancellato una volta eseguito in precedenza.