Fulltextové vyhledávání: Porovnání verzí

Smazaný obsah Přidaný obsah
Řádek 8:
Z důvodu nejednoznačnosti a dvojsmyslnosti přirozeného jazyka, full-textový index typicky produkuje seznam získaných slov s nízkou přesností – mnoho položek je irelevantních. Vyhledávání pomocí řízeného slovníku (např. tezaurus, a jiné) řeší tento problém tím, že označkuje nevhodná slova. Na druhou stranu vyhledávání řízeným slovníkem má nízkou výtěžnost – může vyřadit také dokumenty, které jsou relevantní k vyhledávanému dotazu.
Navzdory existenci mnoha irelevantních dokumentů ve volném indexu, volné vyhledávání může být úspěšné při nalezení dokumentu, které řízené vyhledávaní vyřadilo.
 
== Problém falešně pozitivních nálezů ==
Volné vyhledávání nalezne mnoho dokumentů, které nejsou odpovídající zamýšlenému dotazu. Takové dokumenty se nazývají ''falešně pozitivní nález''. To je často způsobeno nepřesností přirozeného jazyka.
 
Některé shlukovací techniky založené na bayesovském algoritmu (podobný bayesovskému spamovému filtru například v Gmailu) mohou pomoct snižovat falešně pozitivní nálezy. Pokud tedy zadáme jako dotaz slovo „fotbal“, tato technika může zkategorizovat dokumenty pod názvy „Americký fotbal“, „kopaná“ atd. V závislosti na výskytech slov v dokumentu může spadnout do jedné nebo více kategorií. Tyto techniky byly rozsáhle testovány v e-discovery doméně.
 
== Zlepšení výkonů full-textového vyhledávání ==