Paralelní korpus: Porovnání verzí

Smazaný obsah Přidaný obsah
Ximara (diskuse | příspěvky)
vytvoření článku, zdroje uvedeny na konci článku
 
Ximara (diskuse | příspěvky)
přesun externích odkazů mimo tělo textu
Řádek 15:
O rok později, v dubnu 2009<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Historie verzí InterCorpu: verze 1 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:historie#verze_1|datum vydání=|datum přístupu=2016-09-04}}</ref>, následovala '''verze 1'''. Tato verze měla již 34,4 milionů slov ve 505 textech. Počet jazyků se o jeden zvýšil na 20, přičemž došlo k označkování deseti z nich a lemmatizaci sedmi.
 
Ten samý rok v říjnu byla zveřejněna další '''verze 2''', rozšířená na 49,2 milionů slov v 572 textech<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Historie verzí InterCorpu: verze 2 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:historie#verze_2|datum vydání=|datum přístupu=2016-09-04}}</ref>. Ke korpusům byly přidány automaticky zarovnané texty z [https://www.project-syndicate.org/ Project Syndicate]. Jedná se výběr publicistických článků z webových stránek projektu. Texty jsou v češtině, angličtině, francouzštině, němčině, ruštině a španělštině z let 2000 až 2008. Počet jazyků InterCorpu se opět zvýšil o jedna na počet 21, přičemž počet značkovaných a lemmatizovaných jazyků zůstal stejný.
 
'''Třetí verze''' InterCopu byla zveřejněna v únoru 2011<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 3 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze3|datum vydání=|datum přístupu=2016-09-04}}</ref>. Česká verze textu, ať už originál, nebo překlad je používána jako základ, tzv. pivot, a cizojazyčné texty jsou zarovnané podle ní. Zvýšil se počet slov na dohromady 72,2 milionů ve 943 textech (+ další texty z Project Syndicate). Počet jazyků se zvýšil o jeden na 23 a zvedl se i počet označkovaných jazyků na 13 a lemmatizací prošlo 10 jazyků. Verze 3.1 obsahovala pouze vylepšení rozhraní Park.
 
'''Čtvrtá verze''' byla zveřejněna v září 2011<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 4 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze4|datum vydání=|datum přístupu=2016-09-04}}</ref> . Data byla rozšířena o další publicistické texty ze serveru [http://www.voxeurop.eu/cs Presseurop], které byly rovněž zarovnány pouze automaticky. Počet slov se zvýšil na 92,2 milionů zarovnaných slov, přičemž 2,3–3 miliony jsou z Project Syndicate a zhruba 800 tisíc slov ze serveru Presseurop.
 
V '''páté verzi''', která vyšla v červnu 2012<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 5 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze5|datum vydání=|datum přístupu=2016-09-04}}</ref>, došlo k rozdělení textů na jádro a kolekce. V rámci jádra bylo k dispozici 91,5 milionů ručně zarovnaných beletristických textů. Kolekcí se rozumí automaticky zarovnané texty. V této verzi byly použity publicistické články ze stránek Project Syndicate a Presseurop a také právnické texty [[Acquis communautaire|Acquis Communautaire]] s celkovým počtem 451,1 milionů slov.
Řádek 25:
'''Šestá verze''', vydaná v dubnu 2013, rozšířila InterCorp na 138,7 milionů slov v jádru a 728,5 milionů slov v kolekcích<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 6 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze6|datum vydání=|datum přístupu=2016-09-04}}</ref>. Přidány byly dva nové balíky textů – beletristické texty z korpusu ASPAC (Amsterdam Slavic Parallel Aligned Corpus) a texty z jednání [[Evropský parlament|Evropského parlamentu]] (korpus EuroParl). Počet jazyků se zvýšil na 31.
 
'''Sedmá verze''' přináší změnu rozhraní. Ze staršího rozhraní Park a NoSketch Engine se plně přešlo na rozhraní [https://kontext.korpus.cz/first_form? KonText]<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 7 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze7|datum vydání=|datum přístupu=2016-09-04}}</ref>, které umožňuje hledat v současné verzi korpusu, ale i v těch předchozích. Přineslo také možnost filtrování textů a funkci promíchání konkordančních řádků. Verze 7 byla vydána v prosinci 2014. Celkový počet slov v cizojazyčných textech se zvýšil na 173 milionů v jádru a 1 217 milionů v kolekcích, přičemž počet jazyků vzrostl na 38. Mezi kolekce byl přidán další balík textů, tentokrát filmové titulky z databáze Open Subtitles, které mají do korpusu přidat hovorové varianty jazyka. České texty jsou značkovány pozičním systémem, stejně jako zbytek korpusů ČNK.
 
V červnu 2015<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 8 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze8|datum vydání=|datum přístupu=2016-09-04}}</ref> byla zveřejněna '''osmá verze''' InterCorpu. Kompletně se upustilo od rozhraní Park a hledání je přístupné již jen přes KonText. Zveřejněna je také nová aplikace [http://treq.korpus.cz/ Treq], která umožňuje vyhledávat překlad jednotlivých slov, lemmat nebo forem. Výsledky zobrazuje spolu s frekvencí výskytu. Celkový počet slov v cizojazyčných textech vzrostl na 194 milionů v jádru a 1 229 milionů v kolekcích.
 
== KAČENKA ==
V rámci Katedry anglistiky na Filozofické fakultě Masarykovy univerzity vznikl malý paralelní korpus s názvem [http://www.phil.muni.cz/angl/kacenka/kachna.html KAČENKA] (Korpus anglicko-český, elektronický nástroj Katedry anglistiky), který měl za úkol umožnit práci s celými texty. Původní verze je z roku 1997, projekt [http://www.phil.muni.cz/angl/kacenka2/ KAČENKA 2] navázal v letech 2002–2003. Korpus obsahuje 3,3 milionu slov.
 
== Některé zahraniční paralelní korpusy ==
 
=== EuroParl ===
'''EuroParl''' je korpus složený ze zápisů jednání z Evropského Parlamentu, které jsou přístupné [http://www.statmt.org/europarl/ na webu]online. Korpus obsahuje kolem 30 milionů slov v 11 oficiálních jazycích EU: dánština, němčina, řečtina, angličtina, španělština, finština, francouzština, italština, holandština, portugalština a švédština<ref>KOEHN, Philipp. Europarl: A parallel corpus for statistical machine translation. In: ''MT summit''. 2005. p. 79-86.</ref>. Jedná se vždy o jazykové páry angličtina a další jazyk.
 
=== CRATER ===
Řádek 44:
 
=== Multext East ===
Korpus '''[http://nl.ijs.si/ME/ Multext East]''' je založen na knize [[1984 (román)|1984]] od [[George Orwell|George Orwella]]. Dataset obsahuje morfosyntaktické značkování těchto jazyků: bulharština, chorvatšina, čeština, angličtina, estonština, maďarština, litevština, makedonština, perština, polština, rumunština, ruština, srbština, slovenština, slovinština a ukrajinština.<ref>DIMITROVA, Ludmila, et al. Multext-east: Parallel and comparable corpora and lexicons for six central and eastern european languages. In: ''Proceedings of the 17th international conference on Computational linguistics-Volume 1''. Association for Computational Linguistics, 1998. p. 315-319.</ref>
 
== Externí odkazy ==
* [https://www.project-syndicate.org/ Project Syndicate]
* [http://www.voxeurop.eu/cs Server Presseurop]
* Rozhraní [https://kontext.korpus.cz/first_form? KonText]
* Databáze překladových ekvivalentů [http://treq.korpus.cz/ Treq]
* [http://www.phil.muni.cz/angl/kacenka/kachna.html Paralelní korpus KAČENKA]
* [http://www.phil.muni.cz/angl/kacenka2/ Paralelní korpus KAČENKA 2]
* Korpus [http://www.statmt.org/europarl/ EuroParl]
* Korpus [http://nl.ijs.si/ME/ Multext East]
 
== Reference ==