Il clustering gerarchico si riferisce a una procedura di apprendimento non supervisionata che determina cluster successivi sulla base di cluster precedentemente definiti. Funziona raggruppando i dati in un albero di cluster. Statistiche di clustering gerarchico trattando ciascun punto dati come un singolo cluster. L'endpoint fa riferimento a un diverso insieme di cluster, in cui ciascun cluster è diverso dall'altro cluster e gli oggetti all'interno di ciascun cluster sono uguali tra loro.
Esistono due tipi di clustering gerarchico
- Clustering gerarchico agglomerativo
- Clustering divisivo
Clustering gerarchico agglomerativo
Il clustering agglomerativo è uno dei tipi più comuni di clustering gerarchico utilizzato per raggruppare oggetti simili in cluster. Il clustering agglomerativo è noto anche come AGNES (Agglomerative Nesting). Nel clustering agglomerativo, ciascun punto dati funge da cluster individuale e in ogni fase gli oggetti dati vengono raggruppati con un metodo dal basso verso l'alto. Inizialmente, ogni oggetto dati si trova nel proprio cluster. Ad ogni iterazione, i cluster vengono combinati con cluster diversi fino a formare un cluster.
Algoritmo di clustering gerarchico agglomerativo
- Determinare la somiglianza tra gli individui e tutti gli altri cluster. (Trova matrice di prossimità).
- Considera ogni punto dati come un singolo cluster.
- Combina cluster simili.
- Ricalcolare la matrice di prossimità per ciascun cluster.
- Ripeti i passaggi 3 e 4 finché non ottieni un singolo cluster.
Comprendiamo questo concetto con l'aiuto della rappresentazione grafica utilizzando un dendrogramma.
Con l'aiuto della dimostrazione data, possiamo capire come funziona l'algoritmo reale. Qui non è stato effettuato alcun calcolo al di sotto del quale si presuppone tutta la vicinanza tra i cluster.
Supponiamo di avere sei diversi punti dati P, Q, R, S, T, V.
Passo 1:
Considera ciascun alfabeto (P, Q, R, S, T, V) come un singolo cluster e trova la distanza tra il singolo cluster e tutti gli altri cluster.
Passo 2:
Ora unisci i cluster comparabili in un unico cluster. Diciamo che il cluster Q e il cluster R sono simili tra loro in modo da poterli unire nel secondo passaggio. Infine, otteniamo i cluster [ (P), (QR), (ST), (V)]
Passaggio 3:
Qui, ricalcoliamo la prossimità secondo l'algoritmo e combiniamo i due cluster più vicini [(ST), (V)] insieme per formare nuovi cluster come [(P), (QR), (STV)]
Passaggio 4:
Ripeti lo stesso processo. I cluster STV e PQ sono comparabili e combinati insieme per formare un nuovo cluster. Ora abbiamo [(P), (QQRSTV)].
Passaggio 5:
Infine, i restanti due cluster vengono uniti per formare un unico cluster [(PQRSTV)]
Clustering gerarchico divisivo
Il clustering gerarchico divisivo è esattamente l’opposto del clustering gerarchico agglomerativo. Nel clustering gerarchico divisivo, tutti i punti dati sono considerati un singolo cluster e in ogni iterazione i punti dati che non sono simili vengono separati dal cluster. I punti dati separati vengono trattati come un singolo cluster. Rimangono infine N cluster.
Vantaggi del clustering gerarchico
- È semplice da implementare e in alcuni casi fornisce il miglior risultato.
- È semplice e si traduce in una gerarchia, una struttura che contiene più informazioni.
- Non è necessario che specifichiamo in anticipo il numero di cluster.
Svantaggi del clustering gerarchico
- Rompe i grandi grappoli.
- È difficile gestire grappoli di dimensioni diverse e forme convesse.
- È sensibile al rumore e ai valori anomali.
- L'algoritmo non può mai essere modificato o cancellato una volta eseguito in precedenza.