Cure

Traduzione e Integrazione delle Lezioni a cura di Sandro Gallo

Home Birch* Antipole Clustering


Gli algoritmi di clustering tradizionali non riescono a gestire insiemi la cui geometria non sia circa sferica, ad esempio BFR lavoro bene su insiemi di punti sui quali valgono certe deviazioni standard.
Cure risolve questo problema e in più è scalabile a grandi database grazie all'uso di sample random di dati. Il primo problema è risolto rappresentando ogni cluster non con il suo centroide, ma con un insieme di punti distribuiti in modo da rappresentare la geometria del cluster. L'algoritmo sceglie dei campioni random che clusterizza con un approccio gerarchico, ottenendo dei cluster.
Per ognuno di questi sceglie c punti nel seguente modo:

  1. Il primo più distante dal clustroide.
  2. Gli altri, ripetutamente, in modo da massimizzare la minima distanza da quelli già scelti.
Trovati i punti, si spostano verso il centroide di una frazione alpha. E quindi si partiziona l'insieme secondo questi punti.

Home Birch* Antipole Clustering