Vyhledávání Google: Porovnání verzí

Přidáno 36 bajtů ,  před 3 lety
Po přesunu
m (Patriccck přesunul stránku Vyhledávač Google na Vyhledávání Google: Omlouvám se, správný nazev)
(Po přesunu)
značky: editace z Vizuálního editoru editace z mobilu editace z mobilního webu
[[Soubor:Google web search.png|náhled|VyhledávačVyhledávání Google|alt=]]
'''Vyhledávání Google''', provozovaný společností [[Google]], je v současnosti nejpoužívanější [[internetový vyhledávač]].
 
Vyhledávač původně navrhli [[Sergey Brin]] a [[Larry Page]] v rámci svého výzkumu na [[Stanfordova univerzita|Stanfordově univerzitě]], aby ověřili funkčnost svého algoritmu pro ohodnocování [[World Wide Web|webových]] stránek [[PageRank]]. Záhy se ukázalo, že kvalita jeho výsledků natolik převyšovala tehdy dostupné vyhledávače, že je Google v krátké době téměř převálcoval.
''Údaje uvedené v této kapitole se vycházejí z informací uvedených v popisu prototypu vyhledávače z roku [[1998]]. Protože je v současnosti Google komerčním produktem, je o jeho vnitřních funkcí známo mnohem méně. Lze ale předpokládat, že základní rysy jsou shodné s prototypem.''
 
''Crawler'' stahuje ze sítě dokumenty, které mu určí [[Uniform Resource Locator|URL]] Server. Crawlerů běží několik paralelně, každý najednou udržuje stovky otevřených spojení k [[webserver]]ům, aby nebyl zdržován čekáním na jejich odpovědi. Vzhledem k variabilitě internetového obsahu musí být crawler velice robustní a odolný vůči atypickým případům, jako jsou např. [[online hra|online hry]]''.''
 
''Store server'' dokumenty od Crawleru komprimuje a ukládá do Repository. Každé stránce je přiřazen identifikátor docID (ten se generuje, kdykoliv je získáno nové URL).
 
''Indexer'' má několik úkolů:
[[Soubor:Google struktura.png|náhled|VyhledávačVyhledávání Google se skládá z několika oddělených modulů. Všechny úkony mohou být jednoduše paralelizovány.|alt=]]
* Parsuje dokumenty do sady tzv. hitů – každý hit zaznamená výskyt slova v dokumentu společně s jeho pozicí, kapitalizací a relativní velikostí písma, jakým je napsáno. Hity jsou ukládány do “zásobníků” (barrels), které tak tvoří částečně setříděný index.
* Z parsovaných dokumentů také filtruje odkazy (anchors), které se ukládají do k tomu určeného souboru. U každého odkazu je uloženo, odkud a kam vede, a také text odkazu.
== Současný Google ==
 
O technologiích, které používá současnýsoučasné vyhledávačVyhledávání Google, není známo mnoho: Google jako komerční firma uvolňuje méně informací, než v době, kdy šlo o akademický projekt.
 
Jisté je, že celý vyhledávač je rozdělen do několika tzv. datacenter, rozmístěných po celém světě. Datacentra zodpovídají dotazy nezávisle, dotazy se mezi ně rozdělují pomocí rotace [[Domain Name System|DNS]] záznamů (jmenné servery Google na každý dotaz vrací vstupní [[Internet Protocol|IP]] adresu jiného datacentra, vybírá je na základě geografické polohy uživatele a vytížení jednotlivých center).
== Externí odkazy ==
* {{Commonscat}}
* http://www.google.com Vyhledávač GoogleVyhledáváníGoogle
* [http://www-db.stanford.edu/~backrub/google.html The Anatomy of a Large-Scale Hypertextual Web Search Engine]<br />[[Sergey Brin]], [[Lawrence Page]]; Computer Networks and ISDN Systems, 30(1998), 107-117. ([http://www-db.stanford.edu/pub/papers/google.pdf PDF verze])
* [https://web.archive.org/web/20090215180001/http://labs.google.com/papers/googlecluster.html Web Search for a Planet: The Google Cluster Architecture]<br />Luiz André Barroso, Jeffrey Dean, Urs Hölzle; IEEE Micro, March-April 2003, 22-28 ([http://209.85.163.132/papers/googlecluster-ieee.pdf PDF verze])