Wikipedie:Úskalí srovnávacího vyhledávacího testu

Úvahy, názory a podněty k zamyšlení

Text této stránky není pravidlem ani doporučením, a v tomto smyslu tudíž není závazný. Je to ale názor, který na určité aspekty fungování Wikipedie zastává jeden či více wikipedistů a předkládá ho ostatním jako podnět k zamyšlení.

Jste-li zastáncem tohoto názoru: Pokud budete někde diskutovat, neargumentujte touto stránkou, jako by šlo o pravidlo, ale užijte odkaz na ni k vysvětlení svých pohnutek. Nebojte se k názoru přihlásit na příslušném místě diskuse nebo na vlastní uživatelské stránce.
Jste-li oponentem tohoto názoru: Nevkládejte do této stránky své názory. Diskutovat můžete v diskusi, můžete založit názorovou stránku s konkurenčním podnětem k zamyšlení.

Respektujte, že jiný wikipedista může mít jiný názor než vy.

Čas od času se objeví v diskusi, a to nejčastěji v diskusi ohledně názvu článku, kde je potřeba se rozhodnout mezi nějakými variantami, argumentování srovnávacím vyhledávacím testem. Tedy „předložme jednotlivé varianty vyhledávači a které se najde nejvíc, ta nechť je použita ve Wikipedii“. To má mnohá úskalí:

Vyhledávač obvykle prohledává výhradně zdroje na internetu, zatímco Wikipedie se nemá řídit výhradně územ pisatelů a čtenářů internetu. Nelze ignorovat tištěná média jen proto, že je nelze zkoušet podobně testovat.
Vyhledávač obvykle počítá i různé blogy (a dokonce komentáře pod blogy) a podobné záležitosti, které by wikipedista měl coby nerelevantní zdroje víceméně ignorovat, respektive jim přisuzovat podstatně nižší váhu. Výkřik v komentáři pod blogem je pro Wikipedii asi tak stejně relevantní jako nápis vandala na přístřešku hromadné dopravy.
Vyhledávač obvykle nenabízí prostředky, jak dobře vytřídit pouze správný význam u víceznačných pojmů.
Vyhledávač je z hlediska češtiny problematický z důvodu skloňování: Necháme-li mu volnost, nachází nám i podobné tvary, takže výsledek je pro účely diskuse o tom, který z podobných tvarů je vhodný, nepoužitelný. Pokud si vynutíme přesný tvar prvního pádu, pak bychom ovšem měli zvlášť také počítat výskyty v přesném tvaru pádu druhého, třetího… Tato nevýhoda zvláště jasně vynikne, když je vyhledávací test použit pro rozhodování mezi nesklonným a sklonným slovním spojením.
Vyhledávač není vždy schopen přesně rozpoznat, zda byl termín užit v českém textu. U leckterých webových stránek se dnes objevuje možnost nechat si je na kliknutí automaticky přeložit. Vyhledávač pak najde i takové „překlady“ a vyhodnotí je jako český text, byť třeba zrovna hledaný termín je překládacím programem ponechán v původním jazyce (nebo je naopak naprosto nesmyslně strojově přeložen). A i na českých stránkách se objevují úryvky cizojazyčných textů, například citace.
Vyhledávač jako základ vrací číslo všech výskytů. Pokud tedy například termín figuruje i v názvem nebo popisech výrobků, tak velmi snadno jeden jediný obchod přispěje desítkami nebo stovkami výskytů, protože se daná položka objeví v mnoha různých variantách výpisu seznamu zboží. Toto lze u některých vyhledávačů vyřešit tím, že se člověk dokliká na „měkký konec“ vyhledávání, kde mu vyhledávač oznámí, že zatím zobrazil jen tolik a tolik (často jen desítky až stovky) výskytů, protože ty další (tisíce, statisíce, milióny) jsou víceméně duplicitní.
Vyhledávač sám od sebe neví, že nás nezajímají stávající výskyty ve Wikipedii a mnoha jejích různých kopiích.