Normalizovaná googlovská vzdálenost

vzdálenost

Normalizovaná googlovská vzdálenost je metrika sémantické vzdálenosti, odvozená od počtu výsledků vrácených Google vyhledávacím enginem pro daná klíčová slova. Klíčová slova, která mají blízký význam v přirozeném jazyce, jsou si také blízká v rámci Normalizované googlovské vzdálenosti. Výpočet pro dva vyhledávané pojmy a je:

Kde je celkový počet webový stránek, které Google prohledává, vynásoben průměrným počtem výskytu jednotlivých hledaných pojmů na stránkách. a značí počet výsledků pro hledané pojmy a a je počet stránek, kde se vyskytují oba pojmy.

Pokud pak jsou pojmy vnímané jako tak podobné, jak jen to lze. Pokud pak jsou pojmy velmi odlišné. Jestliže se pojmy vyskytují samostatně ale nikdy společně na stejné stránce, jejich vzdálenost bude nekonečno. Pokud se vždy vyskytují spolu, bude nula.

Příklad editovat

Vyhledávání pojmu "Shakespeare" dalo 130 000 000 výsledků, vyhledávání pojmu "Macbeth" dalo 26 000 000 výsledků a vyhledávání "Shakespeare Macbeth" dalo 20 800 000 výsledků. Celkový počet stránek, které Google prohledává byl odhadnut na 25 270 000 000. Za předpokladu, že průměrně je na stránce 1000 hledaných pojmů, dostáváme  

Celkový vzorec pak je:

 .

Pojmy "Shakespeare" a "Macbeth" jsou si velice blízké.

Původ editovat

Vzorec je odvozen od normalizované kompresní vzdálenosti.

Reference editovat

V tomto článku byl použit překlad textu z článku Normalized Google distance na anglické Wikipedii.