Ústav Českého národního korpusu: Porovnání verzí

Smazaný obsah Přidaný obsah
Bez shrnutí editace
Bez shrnutí editace
Řádek 17:
Hlavním posláním ÚČNK je kontinuální rozvoj a budování jazykových korpusů různých typů. Představují reprezentativní lingvisticky zpracované datové základny pro empirický a exaktní výzkum českého jazyka a jde především o korpusy zachycující češtinu v jejím současném stavu (synchronní korpusy psaného a mluveného jazyka), v jejím historickém vývoji (diachronní korpusy) a v překladovém srovnání s jinými jazyky (paralelní korpusy).
 
S budováním korpusů úzce souvisí též bezplatná veřejná služba poskytování internetového uživatelského přístupu ke všem korpusům pomocí specializovaných rozhraní a nástrojů (např. nástroj pro porovnání variant [http://syd.korpus.cz/ SyD]) a podpora uživatelů.
V současnosti projekt ČNK spravuje řadu korpusů psané současné češtiny ([http://www.korpus.cz/syn2000.php SYN2000], [http://www.korpus.cz/syn2005.php SYN2005], [http://www.korpus.cz/syn2006pub.php SYN2006PUB], [http://www.korpus.cz/syn2009pub.php SYN2009PUB] a [http://www.korpus.cz/syn2010.php SYN2010]) o celkovém rozsahu 1200 milionů textových slov, korpusy mluvené češtiny ([http://www.korpus.cz/pmk.php PMK], [http://www.korpus.cz/bmk.php BMK], [http://www.korpus.cz/ORAL2006.php Oral2006] a [http://www.korpus.cz/ORAL2008.php Oral2008]) o celkovém objemu cca 3 miliony textových slov, korpus diachronní ([http://www.korpus.cz/diakorp.php DIAKORP]) a korpusy paralelní ([http://www.korpus.cz/intercorp-info.php InterCorp]) zahrnující překladové ekvivalenty českých textů do více než dvaceti jazyků.<ref>[http://www.korpus.cz/struktura.php Dostupné korpusy]</ref>
 
==== Řady korpusů ====
''Aktuálně'': Mluvené korpusy řady ORAL zachycují autentickou mluvu v neformálních situacích a jsou doplněny základními sociolingvistickými údaji o mluvčích, korpus [http://ucnk.ff.cuni.cz/ORAL2008.php ORAL2008] , pokrývající celé území Čech, je navíc vyvážen v hlavních sociolingvistických kategoriích. Právě připravované rozhraní zpřístupní i anonymizované zvukové nahrávky.
V současnosti projekt ČNK spravuje následující řady korpusů:
 
'''Korpusy psané současné češtiny''' o celkovém rozsahu 1300 milionů textových slov jsou ''referenční'' (tj. neměnné, lze na ně odkazovat a opakované dotazy dají tytéž výsledky) a ''reprezentativní'' (vyváženě pokrývají celou šíři žánrů, jež český čtenář recipuje skrze tištěné psané texty, a reprezentují tak úzus tištěné psané češtiny)
* [http://www.korpus.cz/syn2000.php SYN2000] - 100 mil.,žánrově vyvážený korpus, převažují texty z let 1990 - 1999
* [http://www.korpus.cz/syn2005.php SYN2005] - 100 mil., žánrově vyvážený korpus, převažují texty z let 2000 - 2004
* [http://www.korpus.cz/syn2006pub.php SYN2006PUB] - 300 mil., korpus publicistických textů z let 1989 - 2004
* [http://www.korpus.cz/syn2009pub.php SYN2009PUB] - 700 mil., korpus publicistických textů z let 1995 - 2007
* [http://www.korpus.cz/syn2010.php SYN2010] - 100 mil., žánrově vyvážený korpus, převažují texty z let 2005 - 2009
 
''Aktuálně'Korpusy mluvené češtiny':'' o celkovém objemu cca 3 miliony textových slov. Mluvené korpusy řady ORAL zachycují autentickou mluvu v neformálních situacích a jsou doplněny základními sociolingvistickými údaji o mluvčích, korpus [http://ucnk.ff.cuni.cz/ORAL2008.php ORAL2008] , pokrývající celé území Čech, je navíc vyvážen v hlavních sociolingvistických kategoriích. Právě připravovanéPřipravované rozhraní zpřístupní i anonymizované zvukové nahrávky.
* [http://www.korpus.cz/pmk.php Pražský mluvený korpus]
* [http://www.korpus.cz/bmk.php Brněnský mluvený korpus]
* [http://www.korpus.cz/ORAL2006.php Oral2006]
* [http://www.korpus.cz/ORAL2008.php Oral2008])
 
'''Korpus diachronní''' ([http://www.korpus.cz/diakorp.php DIAKORP])
 
'''Korpusy paralelní''' ([http://www.korpus.cz/intercorp-info.php InterCorp]) zahrnující překladové ekvivalenty českých textů do více než dvaceti jazyků.
<ref>[http://www.korpus.cz/struktura.php Dostupné korpusy]</ref>
 
S budováním korpusů úzce souvisí též bezplatná veřejná služba poskytování internetového uživatelského přístupu ke všem korpusům pomocí specializovaných rozhraní a nástrojů (např. nástroj pro porovnání variant [http://syd.korpus.cz/ SyD]) a podpora uživatelů.
 
== Publikace ==
ÚČNK dlouhodobě spolupracuje s [[Nakladatelství Lidové noviny|Nakladatelstvím Lidové noviny]], <ref> http://ucnk.ff.cuni.cz/publikace.php přehled publikací </ref>, kde mj. vydává řadu Studie z korpusové lingvistiky. Dále vyšlo:
**Frekvenční slovník češtiny (NLN, 2004)
**Frekvenční slovník mluvené češtiny (Karolinum, 2007)
**A Frequency Dictionary of Czech: Core Vocabulary for Learners (Routledge, 2011)
**Mluvnice současné češtiny (Karolinum, 2010)
 
Ke stažení jsou zpřístupněny [http://www.korpus.cz/retrograd10.php abecední a retrográdní slovníky] založené na korpusech řady SYN.
 
== Historie ==
Ústav Českého národního korpusu byl založen [[9. září]] [[1994]]. Pravidelnou činnost vyvíjí od [[1. říjen|1. října]] [[1996]], kdy byl sestaven kolektiv stálých zaměstnanců. Roku 2000 byl zveřejněn první stomilionový žánrově vyvážený korpus, SYN2000. <ref>[http://www.ikaros.cz/node/355 Ikaros – Český národní korpus]</ref>
 
== Externí odkazy ==