Birch*

Traduzione e Integrazione delle Lezioni a cura di Sandro Gallo

Home Fastmap e Multiscaling Cure


Birch è l'acronimo di balanced iterative reducing and clustering using hierarchy. È una tecnica di clustering per database di grandi dimensioni, che usa un approccio gerarchico e clusterizza usando le caratteristiche del cluster invece dei punti.
In più sfrutta una struttura dati chiamata CF*-tree, un albero bilanciato i cui nodi corrispondono a blocchi del disco. Lo spazio metrico su cui agisce Birch* non deve essere necessariamente euclideo.
In generale un approccio gerarchico clusterizza nel seguente modo:

  1. Inizia con n cluster fatti dai singoli punti.
  2. Ripetutamente seleziona i due cluster più vicini da fondere rispetto ad una certa misura di distanza.
  3. Concludi quando il clustering diventa buono cioè:
    1. O sfruttando un approccio k-means si generano k cluster,
    2. Oppure quando ogni possibile merging di cluster violerebbe qualche vincolo di compattezza.
Una misura di distanza serve per calcolare quanto sono vicini due cluster; ne abbiamo varie definizioni che sfruttano:
  1. La distanza tra i centroidi/clustroidi.
  2. La distanza media tra i nodi nei due cluster.
  3. Oppure la distanza minima o massima.
Nei nodi dell'albero mettiamo dati differenti a seconda se si tratta di una foglia o di un nodo interno:
  1. Nelle foglie mettiamo le caratteristiche dei cluster:
    1. N = cardinalità del cluster
    2. image not found il clustroide, cioè il punto che minimizza la
      image not found
    3. Sia p una costante fissata, i p punti X'i del cluster più vicino a image not found con le loro
      image not found
      per i = 1, ..., p
    4. I p punti Xi” del cluster più lontani da image not found e le loro
      image not found
      per i=1, ..., p.

Home Fastmap e Multiscaling Cure