Verze z 4. 9. 2016, 19:07 editovat Ximara (diskuse \| příspěvky) 31 editací vytvoření článku, zdroje uvedeny na konci článku značka: editace z Vizuálního editoru		Verze z 4. 9. 2016, 19:37 editovat zrušit editaci Ximara (diskuse \| příspěvky) 31 editací přesun externích odkazů mimo tělo textu značka: editace z Vizuálního editoru Přejít na další porovnání →
Řádek 15: O rok později, v dubnu 2009<ref>{{Citace elektronického periodika\|příjmení=\|jméno=\|titul=Historie verzí InterCorpu: verze 1 - Příručka ČNK\|periodikum=wiki.korpus.cz\|vydavatel=\|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:historie#verze_1\|datum vydání=\|datum přístupu=2016-09-04}}</ref>, následovala '''verze 1'''. Tato verze měla již 34,4 milionů slov ve 505 textech. Počet jazyků se o jeden zvýšil na 20, přičemž došlo k označkování deseti z nich a lemmatizaci sedmi. Ten samý rok v říjnu byla zveřejněna další '''verze 2''', rozšířená na 49,2 milionů slov v 572 textech<ref>{{Citace elektronického periodika\|příjmení=\|jméno=\|titul=Historie verzí InterCorpu: verze 2 - Příručka ČNK\|periodikum=wiki.korpus.cz\|vydavatel=\|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:historie#verze_2\|datum vydání=\|datum přístupu=2016-09-04}}</ref>. Ke korpusům byly přidány automaticky zarovnané texty z ~~[https://www.project-syndicate.org/~~ Project Syndicate]. Jedná se výběr publicistických článků z webových stránek projektu. Texty jsou v češtině, angličtině, francouzštině, němčině, ruštině a španělštině z let 2000 až 2008. Počet jazyků InterCorpu se opět zvýšil o jedna na počet 21, přičemž počet značkovaných a lemmatizovaných jazyků zůstal stejný. '''Třetí verze''' InterCopu byla zveřejněna v únoru 2011<ref>{{Citace elektronického periodika\|příjmení=\|jméno=\|titul=Korpus InterCorp verze 3 - Příručka ČNK\|periodikum=wiki.korpus.cz\|vydavatel=\|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze3\|datum vydání=\|datum přístupu=2016-09-04}}</ref>. Česká verze textu, ať už originál, nebo překlad je používána jako základ, tzv. pivot, a cizojazyčné texty jsou zarovnané podle ní. Zvýšil se počet slov na dohromady 72,2 milionů ve 943 textech (+ další texty z Project Syndicate). Počet jazyků se zvýšil o jeden na 23 a zvedl se i počet označkovaných jazyků na 13 a lemmatizací prošlo 10 jazyků. Verze 3.1 obsahovala pouze vylepšení rozhraní Park. '''Čtvrtá verze''' byla zveřejněna v září 2011<ref>{{Citace elektronického periodika\|příjmení=\|jméno=\|titul=Korpus InterCorp verze 4 - Příručka ČNK\|periodikum=wiki.korpus.cz\|vydavatel=\|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze4\|datum vydání=\|datum přístupu=2016-09-04}}</ref> . Data byla rozšířena o další publicistické texty ze serveru ~~[http://www.voxeurop.eu/cs~~ Presseurop], které byly rovněž zarovnány pouze automaticky. Počet slov se zvýšil na 92,2 milionů zarovnaných slov, přičemž 2,3–3 miliony jsou z Project Syndicate a zhruba 800 tisíc slov ze serveru Presseurop. V '''páté verzi''', která vyšla v červnu 2012<ref>{{Citace elektronického periodika\|příjmení=\|jméno=\|titul=Korpus InterCorp verze 5 - Příručka ČNK\|periodikum=wiki.korpus.cz\|vydavatel=\|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze5\|datum vydání=\|datum přístupu=2016-09-04}}</ref>, došlo k rozdělení textů na jádro a kolekce. V rámci jádra bylo k dispozici 91,5 milionů ručně zarovnaných beletristických textů. Kolekcí se rozumí automaticky zarovnané texty. V této verzi byly použity publicistické články ze stránek Project Syndicate a Presseurop a také právnické texty [[Acquis communautaire\|Acquis Communautaire]] s celkovým počtem 451,1 milionů slov. Řádek 25: '''Šestá verze''', vydaná v dubnu 2013, rozšířila InterCorp na 138,7 milionů slov v jádru a 728,5 milionů slov v kolekcích<ref>{{Citace elektronického periodika\|příjmení=\|jméno=\|titul=Korpus InterCorp verze 6 - Příručka ČNK\|periodikum=wiki.korpus.cz\|vydavatel=\|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze6\|datum vydání=\|datum přístupu=2016-09-04}}</ref>. Přidány byly dva nové balíky textů – beletristické texty z korpusu ASPAC (Amsterdam Slavic Parallel Aligned Corpus) a texty z jednání [[Evropský parlament\|Evropského parlamentu]] (korpus EuroParl). Počet jazyků se zvýšil na 31. '''Sedmá verze''' přináší změnu rozhraní. Ze staršího rozhraní Park a NoSketch Engine se plně přešlo na rozhraní ~~[https://kontext.korpus.cz/first_form?~~ KonText]<ref>{{Citace elektronického periodika\|příjmení=\|jméno=\|titul=Korpus InterCorp verze 7 - Příručka ČNK\|periodikum=wiki.korpus.cz\|vydavatel=\|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze7\|datum vydání=\|datum přístupu=2016-09-04}}</ref>, které umožňuje hledat v současné verzi korpusu, ale i v těch předchozích. Přineslo také možnost filtrování textů a funkci promíchání konkordančních řádků. Verze 7 byla vydána v prosinci 2014. Celkový počet slov v cizojazyčných textech se zvýšil na 173 milionů v jádru a 1 217 milionů v kolekcích, přičemž počet jazyků vzrostl na 38. Mezi kolekce byl přidán další balík textů, tentokrát filmové titulky z databáze Open Subtitles, které mají do korpusu přidat hovorové varianty jazyka. České texty jsou značkovány pozičním systémem, stejně jako zbytek korpusů ČNK. V červnu 2015<ref>{{Citace elektronického periodika\|příjmení=\|jméno=\|titul=Korpus InterCorp verze 8 - Příručka ČNK\|periodikum=wiki.korpus.cz\|vydavatel=\|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze8\|datum vydání=\|datum přístupu=2016-09-04}}</ref> byla zveřejněna '''osmá verze''' InterCorpu. Kompletně se upustilo od rozhraní Park a hledání je přístupné již jen přes KonText. Zveřejněna je také nová aplikace ~~[http://treq.korpus.cz/~~ Treq], která umožňuje vyhledávat překlad jednotlivých slov, lemmat nebo forem. Výsledky zobrazuje spolu s frekvencí výskytu. Celkový počet slov v cizojazyčných textech vzrostl na 194 milionů v jádru a 1 229 milionů v kolekcích. == KAČENKA == V rámci Katedry anglistiky na Filozofické fakultě Masarykovy univerzity vznikl malý paralelní korpus s názvem ~~[http://www.phil.muni.cz/angl/kacenka/kachna.html~~ KAČENKA] (Korpus anglicko-český, elektronický nástroj Katedry anglistiky), který měl za úkol umožnit práci s celými texty. Původní verze je z roku 1997, projekt ~~[http://www.phil.muni.cz/angl/kacenka2/~~ KAČENKA 2] navázal v letech 2002–2003. Korpus obsahuje 3,3 milionu slov. == Některé zahraniční paralelní korpusy == === EuroParl === '''EuroParl''' je korpus složený ze zápisů jednání z Evropského Parlamentu, které jsou přístupné ~~[http://www.statmt.org/europarl/ na webu]~~online. Korpus obsahuje kolem 30 milionů slov v 11 oficiálních jazycích EU: dánština, němčina, řečtina, angličtina, španělština, finština, francouzština, italština, holandština, portugalština a švédština<ref>KOEHN, Philipp. Europarl: A parallel corpus for statistical machine translation. In: ''MT summit''. 2005. p. 79-86.</ref>. Jedná se vždy o jazykové páry angličtina a další jazyk. === CRATER === Řádek 44: === Multext East === Korpus '''~~[http://nl.ijs.si/ME/~~ Multext East]''' je založen na knize [[1984 (román)\|1984]] od [[George Orwell\|George Orwella]]. Dataset obsahuje morfosyntaktické značkování těchto jazyků: bulharština, chorvatšina, čeština, angličtina, estonština, maďarština, litevština, makedonština, perština, polština, rumunština, ruština, srbština, slovenština, slovinština a ukrajinština.<ref>DIMITROVA, Ludmila, et al. Multext-east: Parallel and comparable corpora and lexicons for six central and eastern european languages. In: ''Proceedings of the 17th international conference on Computational linguistics-Volume 1''. Association for Computational Linguistics, 1998. p. 315-319.</ref> == Externí odkazy == * [https://www.project-syndicate.org/ Project Syndicate] * [http://www.voxeurop.eu/cs Server Presseurop] * Rozhraní [https://kontext.korpus.cz/first_form? KonText] * Databáze překladových ekvivalentů [http://treq.korpus.cz/ Treq] * [http://www.phil.muni.cz/angl/kacenka/kachna.html Paralelní korpus KAČENKA] * [http://www.phil.muni.cz/angl/kacenka2/ Paralelní korpus KAČENKA 2] * Korpus [http://www.statmt.org/europarl/ EuroParl] * Korpus [http://nl.ijs.si/ME/ Multext East] == Reference ==

Paralelní korpus: Porovnání verzí