Fulltextové vyhledávání: Porovnání verzí

Smazaný obsah Přidaný obsah
ToOb (diskuse | příspěvky)
→‎Indexování: drobne upravy a wikilinky
Řádek 3:
V textovém vyhledávání ''full-text'' odkazuje na techniku hledání v [[počítač]]ových [[dokument]]ech a databázích. Při full-textovém vyhledávání vyhledávací [[algoritmus]] prozkoumává všechna slova v každém uloženém dokumentu a pokouší se je porovnat se slovy zadanými uživatelem. Full-textové vyhledávání přichází běžně s databázemi knihoven v sedmdesátých letech. Mnoho [[web]]ových stránek a aplikací (například [[textové procesory]]) umožňují full-textové vyhledávání. Některé webové [[vyhledávač]]e, jako [[AltaVista]] uplatňují full-textové techniky vyhledávání, zatímco jiné hledají pouze v hotovém indexu webových stránek.
V praxi je těžké rozeznat, jak vyhledávací algoritmus pracuje. Vyhledávací algoritmy aktuálně využívané ve webových službách se málokdy zveřejňují, aby nebyly zneužity podnikavci pro zvýhodnění svých stránek při vyhledávání.
 
==Indexování==
Při malém množství dokumentů je možné spustit full-textový algoritmus k přímému prohledávání obsahu dokumentů při každém dotazu, tzv. sériové vyhledávání. K tomu lze využít některé základní nástroje.
 
Pokud je ovšem množství dokumentů potenciálně větší než kapacita vyhledávacího algoritmu, je pro udržení rychlé odezvy hledání důležité rozdělit vyhledávání do dvou úkolů: indexování a vyhledávání. Indexovací fáze prochází text ve všech dokumentech a vytváří seznam [[klíčové slovo|klíčových termínů]], často nazývaný ''index'', korektnější termín je [[konkordance]]. Ve vyhledávací fázi, kdy se provádí specifický dotaz, je prohledáván pouze k tomu připravený index, namísto originálních dokumentů.
 
Indexer vytváří záznam v indexu pro každý výraz, nebo slovo, které najde v dokumentu a jeho relativní pozici v dokumentu. Obvykle indexer ignoruje tzv. stop-slova, jako jsou spojky a předložky, které jsou příliš obecné a významově bezvýznamné pro hledání. Některé indexery provádějí jazykově specifické úpravy, jako [[lemmatizace|lemmatizaci]] (nalezení [[kmen (mluvnice)|kmene]] slova) a [[derivace (lingvistika)|derivaci]] (nalezení odvozených tvarů, tj. [[skloňování]] nebo [[časování]]).
 
== Přesnost versus zanedbávání ==