Webový vyhledávač: Porovnání verzí

Smazaný obsah Přidaný obsah
Vyprázdnění stránky
Řádek 1:
'''Internetový vyhledávač''' je služba, která umožňuje na [[Internet]]u najít [[Webová stránka|webové stránky]], které obsahují požadované [[informace]]. Uživatel zadává do rozhraní vyhledávače klíčová [[Slovo|slova]], která charakterizují hledanou informaci a vyhledávač obratem na základě své [[databáze]] vypisuje seznam [[Uniform Resource Locator|odkazů]] na stránky, které hledané informace obsahují ([[text]], obrázky nebo jiné typy [[Multimédia|multimediálních]] informací). Databáze je udržována převážně automaticky na rozdíl od [[Internetový katalog|internetových katalogů]], které jsou udržovány převážně ručně.
 
Cílem vyhledávačů je poskytnout uživateli při odpovědi na dotaz co nejrelevantnější informace, a proto různými způsoby hodnotí důležitost webových stránek, které mají ve své databázi (např. [[PageRank]]).
 
== Jak vyhledávač pracuje ==
Vyhledávač pracuje z větší části automaticky, k čemuž využívá desítky až statisíce počítačů. Kvalita vyhledávače je závislá na tom, jak kvalitní dává odpovědi, tj. jestli uživatel najde hledanou informaci na prvních místech odpovědi vyhledávače. Z tohoto důvodu je nutné měřit kvalitu stránek, které vyhledávač má ve své databázi (např. [[PageRank]] u [[Google (vyhledávač)|Google]], [[S-Rank]] u [[Seznam.cz|Seznamu]], [[JyxoRank]] u [[Jyxo.cz|Jyxo]]) a naopak majitelé stránek se snaží modifikací svých stránek dosáhnout na co nejvyšší pozice ve výstupu vyhledávače ([[Search Engine Optimization|SEO]]). Výsledkem je, že vyhledávač musí své metody neustále vylepšovat, aby vyhověl čím dál vyšším požadavkům svých návštěvníků.
 
Obecně většina internetových vyhledávačů pracuje ve třech krocích (viz odstavce níže):
# procházení webových stránek
# vytvoření databáze výskytu slov
# indexování
# poskytování odpovědí na dotazy
 
=== Procházení webových stránek ===
Pro procházení webových stránek má internetový vyhledávač automatický [[Počítačový program|program]], tzv. [[Internetový robot|vyhledávací robot]] (bot nebo též spider – „pavouk“), který se pomocí [[hypertext]]ových odkazů snaží navštívit všechny [[Webová stránka|webové stránky]] na Internetu (celý [[World Wide Web]], tj. WWW).
 
Robot pracuje tak, že dostane na začátku seznam atraktivních stránek (tj. vstupních míst, resp. seznam [[Uniform Resource Locator|URL odkazů]]). Nejlépe je to seznam [[Internetový katalog|rozcestníků]], jako je například katalog [[Seznam.cz|Seznamu]]<ref>http://odkazy.seznam.cz – katalog odkazů na [[Seznam.cz]]</ref>, Yahoo! Directory<ref>http://dir.yahoo.com – Yahoo! Directory (katalog odkazů)</ref> a podobně. Robot každou stránku stáhne na svůj [[pevný disk]] a poznamená si její URL adresu, aby ji nenavštěvoval opakovaně. V uložené stránce přečte všechny [[hypertext]]ové odkazy na další webové stránky, čímž získá další místa, která stejným způsobem navštíví. Robot pracuje cyklicky, takže se po určitém čase na stránky vrací, aby zjistil jejich případné změny.
 
=== Databáze výskytu slov ===
Stránky, které robot uložil na pevný disk, je nutné zpracovat a vytvořit z nich [[Databáze|databázi]]. V databázi jsou uvedena všechna nalezená slova a k nim adresy, na kterých se tato slova vyskytují. Databáze je tedy schopna poskytnout informaci, na kterých stránkách se hledané slovo nachází. Problémem je velikost databáze, protože její sekvenční prohledání by trvalo neúměrně dlouho. Proto následuje další krok, tzv. indexace.
 
=== Indexování ===
[[Index (databáze)|Indexování]] databáze urychluje vyhledání požadované informace. Zároveň je index vytvořen tak, aby poskytoval na prvních místech stránky s nejvyšší užitnou hodnotou (tzv. [[Relevance|relevancí]], mající nejvyšší hodnocení kvality, nejvyšší váhu). Pro výpočet relevance se používají nejrůznější [[Algoritmus|algoritmy]], které jsou založeny na nejrůznějších znacích stránek a různých úhlech [[analýza|analýzy]] jejich obsahu, například:
 
;Váha slov: Stránka má vyšší hodnocení, když má hledané slovo na stránce vyšší váhu. Váha slov se zvyšuje, je-li slovo v titulku stránky, nadpisu nebo blíže k začátku stránky, případně se na stránce opakuje. Váhu slov lze zneužít vkládáním „zajímavých“ slov do obsahu stránky bez ohledu na její skutečný obsah nebo prostým opakováním slov. Vyhledávač se brání penalizací (snížením kvality) podezřelých stránek.
 
;Atraktivita stránky: Stránka má vyšší hodnocení, když na ni [[Zpětný odkaz|odkazuje]] více jiných stránek, protože zřejmě obsahuje zajímavé informace. Atraktivitu lze zneužít vytvářením falešných stránek, které odkazují na stránku, která má získat vyšší hodnocení. Vyhledávač se brání sledováním podezřelého náhlého hromadění odkazů.
 
;Serióznost Webu: [[Webový server|Webové servery]], které obsahují velké množství kvalitních stránek, jsou při výpočtu váhy zvýhodněny. Seznam se může udržovat i ručními zásahy.
 
;Sponzorované odkazy: Váha odkazu se zvyšuje zaplacením poplatku. Seriózní vyhledávače se této praxi vyhýbají nebo zřetelně oddělují výsledky zobrazené na základě komerčního zvýhodnění. Tento způsob je jedním z možných zdrojů příjmů vyhledávače.
 
;Technická kvalita: Váha odkazu se zvyšuje, pokud jsou stránky správně sestaveny a vyhovují [[World Wide Web Consortium|webovým standardům]].
 
=== Odpovědi na dotazy ===
Vyhledávač poskytuje svým uživatelům vstupní formulář, do kterého jsou zadávána hledaná slova (fráze atp.). Po odeslání dotazu jsou pomocí indexu získány z databáze odkazy na stránky, které hledané slovo obsahují. Podle kvality indexu jsou na prvních místech většinou odkazy na stránky, které jsou pro uživatele dostačující. Pro vyšší přehlednost se zobrazuje kromě odkazu ještě titulek stránky, okolí nalezených slov a případně i další informace (stáří informace, kvalita odkazu, …).
 
== Aktuálnost databáze ==
Z principu práce vyhledávače vyplývá, že nikdy nemá úplně aktuální informace, ale prezentuje je se zpožděním. Robot navštěvuje zajímavé adresy co nejčastěji (např. zpravodajské servery) nebo se dokonce uzavírá smlouva o snadnějším zpřístupnění obsahu pro robota (místo pasivního čekání na návštěvu robota jsou nové informace robotovi přímo zaslány). Pro vyšší efektivitu se databáze aktualizuje po částech nebo průběžně nebo se co nejčastěji aktualizují alespoň nejzajímavější a nejčastěji hledané informace.
 
== Nežádoucí aktivity robotů ==
Někdy je nežádoucí, aby robot indexoval některé stránky. Proto existuje možnost, jak roboty omezit pomocí souboru [[robots.txt]], který se umisťuje do kořene webového serveru.
 
== SEO ==
Technika, která dokáže stránky upravit tak, aby se co nejlépe umístily ve výsledcích vyhledávání, se nazývá [[Search Engine Optimization|SEO]] ({{Vjazyce2|en|''Search Engine Optimization''}}) a v poslední době je velmi žádanou službou. SEO techniky se rozlišují na „povolené“ a „zakázané“ (tzv. Black Hat SEO, které vyhledávače tvrdě postihují například vyřazením ze svého indexu), avšak z hlediska vyhledávačů je jakékoliv umělé zlepšování umístění ve výsledcích vyhledávání nežádoucí (snad kromě případů, kdy robot stránce z nějakého důvodu nerozumí).
 
{{Viz též|Search Engine Optimization}}
 
Na podobném principu funguje i tzv. [[Google bomba]], která umožňuje do výsledků vyhledávání zahrnout i stránky, které hledané slovo neobsahují.
 
== Nejznámější vyhledávače ==
=== Ve světě ===
* [[AltaVista]]
* [[Ask]]
* [[Bing]]
* [[Excite]]
* [[Google (vyhledávač)]]
* [[Lycos]]
* [[Yahoo]]
* [[DuckDuckGo]]
* [[YaCy]]
 
=== V České republice ===
* [[Atlas.cz]]
* [[Centrum.cz]]
* [[Jyxo.cz]]
* [[Seznam.cz]]
* [[Morfeo]]
 
== Historie ==
{{Pahýl část}}
 
== Reference ==
<references/>
 
== Externí odkazy ==
* http://www.searchenginesindex.com/cs/ – Vyhledávače ve všech zemích na světě (česky)
* http://www.vyhledavace.net – katalog vyhledávačů a katalogů (česky)
* http://vyhledavace.tym.cz – hodnocení vyhledávačů a katalogů pro [[Search Engine Optimization|SEO]] (česky)
* http://www.jantichy.cz/blog/podily-vyhledavacu - proč nelze věrohodně určit skutečné podíly vyhledávačů v ČR
* http://www.portiscio.net/historie-seo - vývoj vyhledávačů od roku 1994 do roku 2010
 
[[Kategorie:Internetové vyhledávače| ]]
[[Kategorie:World Wide Web]]
[[Kategorie:Vyhledávání]]
 
[[af:Soekenjin]]
[[ar:محرك بحث]]
[[ast:Motor de gueta]]
[[be-x-old:Сеціўная пошукавая сыстэма]]
[[bg:Търсачка]]
[[bs:Internet pretraživač]]
[[ca:Motor de cerca]]
[[cy:Peiriant chwilio rhyngrwyd]]
[[da:Søgemaskine]]
[[de:Suchmaschine]]
[[el:Μηχανή αναζήτησης]]
[[en:Web search engine]]
[[eo:Serĉilo]]
[[es:Motor de búsqueda]]
[[eu:Bilaketa motor]]
[[ext:Landeru]]
[[fa:جویشگر]]
[[fi:Hakukone]]
[[fiu-vro:Võrgostotsja]]
[[fr:Moteur de recherche]]
[[gl:Motor de busca]]
[[gu:વેબ શોધ એન્જીન]]
[[he:מנוע חיפוש]]
[[hi:खोज संयन्त्र]]
[[hr:Tražilica]]
[[hu:Keresőmotor]]
[[hy:Որոնողական համակարգ]]
[[ia:Mechanismo de recerca]]
[[id:Mesin pencari]]
[[it:Motore di ricerca]]
[[ja:検索エンジン]]
[[ka:საძიებო სისტემა]]
[[kk:Іздеу жүйесі]]
[[kn:ಅಂತರ್ಜಾಲ ಹುಡುಕಾಟ ಯಂತ್ರ]]
[[ko:검색 엔진]]
[[lv:Meklētājprogramma]]
[[mk:Пребарувач]]
[[ml:വെബ് സെർച്ച് എഞ്ചിൻ]]
[[ms:Enjin gelintar]]
[[nl:Zoekmachine]]
[[nn:Søkjemotor]]
[[no:Søkemotor]]
[[os:Агуырды системæ]]
[[pl:Wyszukiwarka internetowa]]
[[pt:Motor de busca]]
[[ro:Motor de căutare]]
[[ru:Поисковая система]]
[[scn:Muturi di circata]]
[[simple:Search engine]]
[[sl:Spletni iskalnik]]
[[sr:Интернет претраживач]]
[[stq:Säikmaskiene]]
[[sv:Söktjänst]]
[[ta:தேடுபொறி]]
[[te:వెబ్ శోధనా యంత్రం]]
[[th:เสิร์ชเอนจิน]]
[[tr:Arama motoru]]
[[uk:Пошукова система]]
[[uz:Veb qidiruv tizimi]]
[[vi:Máy truy tìm dữ liệu]]
[[yi:זוכמאשין]]
[[zh:搜索引擎]]