Web Mining e DICE

Traduzione e Integrazione delle Lezioni a cura di Sandro Gallo

Home Web Search - Hub and Authority Book and Authors From Sergei Brin


Il web mining è il conteggio dinamico di insiemi di articoli interessanti ma in uno spazio troppo grande. Questa ricerca si basa sull'idea che un insieme di articoli interessanti non implica che ogni suo sottoinsieme lo sia, cioè l'interesse non è monotono.
Una misura del nostro interesse su un insieme S di parole è data da:
image not found
Un esempio di web mining è fornito da DICE che è l'acronimo di dinamics itemset counting engine. Questo motore visita ripetutamente le pagine web in maniera round robin.
Ad ogni round conta le occorrenze di certi insiemi di parole e delle parole stesse e ne calcola l'interesse.
Ogni tanto, diciamo ogni 5000 pagine, prende gli insieme meno interssanti e li scarta sostituendoli con nuovi insiemi. Le regole per la scelta dei nuovi insiemi si basano sull'idea che parole di insiemi interessanti hanno più probabilità di stare in altri insiemi interessanti.
Allora le regole sono:

  1. Scegli parole random.
  2. Scegli parole da insiemi interessanti.
  3. Scegli metà parole random e l'altra metà da insiemi interessanti.
  4. Prendi l'unione di due insiemi interessanti la cui intersezione contenga almeno due elementi.
  5. Prendi un insieme di dimensione j tale che ogni suo sottoinsieme di dimensione j-1 sia interessante..

Home Web Search - Hub and Authority Book and Authors From Sergei Brin