Wikipedie:Stáhnutí databáze

Wikipedie nabízí kopie veškerého dostupného obsahu uživatelům, kteří ji potřebují. Tyto kopie databází můžou být využity pro mirrorování Wikipedie, osobní užití, zálohy informací, použití offline anebo pro dotazy na databázi. Veškerý textový obsah je licencován pod licencí Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) a většina zároveň i pod licencí GNU Free Documentation License (GFDL). Pro další informace o autorském právu na Wikipedii vizte WP:Autorské právo.

Offline čtečky Wikipedie

editovat

Některé z mnoha cest, jak číst Wikipedii offline.

Kde získám...

editovat

Českojazyčnou Wikipedii

editovat
  • Dumpy kteréhokoliv projektu Nadace Wikimedia: https://dumps.wikimedia.org a Internet Archive
  • Dumpy českojazyčné Wikipedie v SQL a XML: https://dumps.wikimedia.org/cswiki
    • pages-articles.xml.bz2 - pouze aktuální verze článků, žádné diskusní a uživatelské stránky, toto je pravděpodobně to, co chcete (okolo 550 MB v komprimované variantě)
    • pages-meta-current.xml.bz2 - pouze aktuální verze všech stránek (včetně diskusí), okolo 670 MB v komprimované verzi
    • abstract.xml.gz - úvody článků
    • all-titles-in-ns0.gz - pouze názvy článků (s přesměrováními)
    • SQL zálohy pro většinu tabulek MediaWiki jsou také dostupné
    • pages-meta-history.xml.bz2 - Obsahuje všechny revize všech stránek, rozbalí se na přes 300 GB velký textový soubor, stahujte pouze, pokud víte, že tento soubor užijete
  • Pro stažení pouze části databáze v XML formátu, třeba jedné kategorie nebo seznamu článků, využijte Special:Export
  • Frontend Wikipedie: MediaWiki ([1])
  • Databázový backend: MySQL

Nakládání s komprimovanými soubory

editovat

Komprimované dumpy jsou značně zmenšené, po rozbalení zaberou velké množství prostoru. K dekomprimaci souborů .bz2 a .7z mohou být využity následující programy:

Windows
Mac
  • OS X přichází se zabudovaným nástrojem na příkazové řádce pro dekomprimaci bzip2 souborů
GNU/Linux
  • GNU/Linux přichází se zabudovaným nástrojem na příkazové řádce pro dekomprimaci bzip2 souborů
BSD
  • Některé BSD systémy přicházejí se zabudovaným nástrojem na příkazové řádce. U ostatních, jako OpenBSD je nutné tento nástroj napřed nainstalovat z balíčku

Proč si data nestáhnout sám při běhu?

editovat

Představme si, že vyvíjíte software, který na některých místech zobrazují informace z Wikipedie. Pokud chcete, aby váš program zobrazil informace jinak, než jsou na Wikipedii, budete pravděpodobně potřebovat wikikód, ve kterém byl text napsán namísto hotového HTML.

Pokud chcete získat všechna data, pravděpodobně je chcete přenést tou nejefektivnější možnou cestou. Servery wikipedia.org musí provést dost práce, než převedou wikikód do HTML. To spotřebovává čas jak váš, tak serverům wikipedia.org, takže stahování všech stránek není správnou cestou.

Prosím uvědomte si, že živé mirrory Wikipedie, které se dynamicky načítají ze serverů Nadace Wikimedia jsou zakázané.

Prosím nevyužívejte web crawler

editovat

Prosím, nevyužívejte web crawler (robot stahující obsah internetu) pro stažení velkého množství článků. Agresivní využívání těchto robotů mohou vyústit v dramatické zpomalení běhu Wikipedie.

Příklad mailu zaslanému zablokovanému majiteli robota

editovat

Orientační překlad z originální anglické verze

IP adresa nnn.nnn.nnn.nnn stahovala až 50 stránek za sekundu ze serverů wikipedia.org. Soubor robots.txt má v tuto chvíli nastaven limit na jednu stránku za sekundu použitím nastavení Crawl-delay. Prosím, respektujte toto nastavení. Za nic nestojí stahování veškerého obsahu Wikipedie pomocí jednoho stáhnutí za sekundu, protože to zabere několik týdnů. Zmíněná IP adresa je nyní zablokována nebo k tomu dojde během krátké doby. Prosím, kontaktujte nás, pokud si přejete být odblokován. Prosím, nesnažte se zablokování obejít - prostě zablokujeme celý rozsah.

Pokud chcete možnosti, jak obsah stáhnout více efektivně, nabízíme spoustu možností, zahrnující týdenní [.pozn 1] dumpy databáze, které můžete načíst do MySQL databáze a pracovat s daty lokálně, využitím rychlosti, které chcete.

Namísto odpovědi na tento e-mail můžete preferovat navštívení kanálu #mediawiki na irc.freenode.net kvůli diskusi vašich názorů s naším týmem.

Provádění SQL dotazů na aktuální verzi databáze

editovat

Namísto stahování dumpu databáze můžete využít živé databázové konzole na https://quarry.wmflabs.org .

Schéma databáze

editovat

Viz také: mw:Manual:Database layout

SQL soubor použitý k inicializaci databáze MediaWiki můžete nalézt zde. XML schéma je definované na začátku každého souboru.

Poznámky

editovat
  1. Nyní měsíční

Reference

editovat

V tomto článku byl použit překlad textu z článku Wikipedia:Database download na anglické Wikipedii.