Paralelní korpus: Porovnání verzí
Smazaný obsah Přidaný obsah
vytvoření článku, zdroje uvedeny na konci článku značka: editace z Vizuálního editoru |
přesun externích odkazů mimo tělo textu značka: editace z Vizuálního editoru |
||
Řádek 15:
O rok později, v dubnu 2009<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Historie verzí InterCorpu: verze 1 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:historie#verze_1|datum vydání=|datum přístupu=2016-09-04}}</ref>, následovala '''verze 1'''. Tato verze měla již 34,4 milionů slov ve 505 textech. Počet jazyků se o jeden zvýšil na 20, přičemž došlo k označkování deseti z nich a lemmatizaci sedmi.
Ten samý rok v říjnu byla zveřejněna další '''verze 2''', rozšířená na 49,2 milionů slov v 572 textech<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Historie verzí InterCorpu: verze 2 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:historie#verze_2|datum vydání=|datum přístupu=2016-09-04}}</ref>. Ke korpusům byly přidány automaticky zarovnané texty z
'''Třetí verze''' InterCopu byla zveřejněna v únoru 2011<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 3 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze3|datum vydání=|datum přístupu=2016-09-04}}</ref>. Česká verze textu, ať už originál, nebo překlad je používána jako základ, tzv. pivot, a cizojazyčné texty jsou zarovnané podle ní. Zvýšil se počet slov na dohromady 72,2 milionů ve 943 textech (+ další texty z Project Syndicate). Počet jazyků se zvýšil o jeden na 23 a zvedl se i počet označkovaných jazyků na 13 a lemmatizací prošlo 10 jazyků. Verze 3.1 obsahovala pouze vylepšení rozhraní Park.
'''Čtvrtá verze''' byla zveřejněna v září 2011<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 4 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze4|datum vydání=|datum přístupu=2016-09-04}}</ref> . Data byla rozšířena o další publicistické texty ze serveru
V '''páté verzi''', která vyšla v červnu 2012<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 5 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze5|datum vydání=|datum přístupu=2016-09-04}}</ref>, došlo k rozdělení textů na jádro a kolekce. V rámci jádra bylo k dispozici 91,5 milionů ručně zarovnaných beletristických textů. Kolekcí se rozumí automaticky zarovnané texty. V této verzi byly použity publicistické články ze stránek Project Syndicate a Presseurop a také právnické texty [[Acquis communautaire|Acquis Communautaire]] s celkovým počtem 451,1 milionů slov.
Řádek 25:
'''Šestá verze''', vydaná v dubnu 2013, rozšířila InterCorp na 138,7 milionů slov v jádru a 728,5 milionů slov v kolekcích<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 6 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze6|datum vydání=|datum přístupu=2016-09-04}}</ref>. Přidány byly dva nové balíky textů – beletristické texty z korpusu ASPAC (Amsterdam Slavic Parallel Aligned Corpus) a texty z jednání [[Evropský parlament|Evropského parlamentu]] (korpus EuroParl). Počet jazyků se zvýšil na 31.
'''Sedmá verze''' přináší změnu rozhraní. Ze staršího rozhraní Park a NoSketch Engine se plně přešlo na rozhraní
V červnu 2015<ref>{{Citace elektronického periodika|příjmení=|jméno=|titul=Korpus InterCorp verze 8 - Příručka ČNK|periodikum=wiki.korpus.cz|vydavatel=|url=https://wiki.korpus.cz/doku.php/cnk:intercorp:verze8|datum vydání=|datum přístupu=2016-09-04}}</ref> byla zveřejněna '''osmá verze''' InterCorpu. Kompletně se upustilo od rozhraní Park a hledání je přístupné již jen přes KonText. Zveřejněna je také nová aplikace
== KAČENKA ==
V rámci Katedry anglistiky na Filozofické fakultě Masarykovy univerzity vznikl malý paralelní korpus s názvem
== Některé zahraniční paralelní korpusy ==
=== EuroParl ===
'''EuroParl''' je korpus složený ze zápisů jednání z Evropského Parlamentu, které jsou přístupné
=== CRATER ===
Řádek 44:
=== Multext East ===
Korpus '''
== Externí odkazy ==
* [https://www.project-syndicate.org/ Project Syndicate]
* [http://www.voxeurop.eu/cs Server Presseurop]
* Rozhraní [https://kontext.korpus.cz/first_form? KonText]
* Databáze překladových ekvivalentů [http://treq.korpus.cz/ Treq]
* [http://www.phil.muni.cz/angl/kacenka/kachna.html Paralelní korpus KAČENKA]
* [http://www.phil.muni.cz/angl/kacenka2/ Paralelní korpus KAČENKA 2]
* Korpus [http://www.statmt.org/europarl/ EuroParl]
* Korpus [http://nl.ijs.si/ME/ Multext East]
== Reference ==
|