Ústav Českého národního korpusu: Porovnání verzí

Smazaný obsah Přidaný obsah
doplnění aktuálních údajů o publikacích a činnosti ÚČNK
Řádek 4:
Ředitelem ústavu je prof. PhDr. [[František Čermák (jazykovědec)|František Čermák]], DrSc.
 
Ústav je rozčleněn na následující sekce:<ref>[http://www.korpus.cz/kolektiv.php Pracovní kolektiv ČNK]</ref>:
* Lingvistická (vedoucí Mgr. [[Václav Cvrček]], PhD.)
* Komputační (vedoucí Mgr. [[Michal Křen]], PhD.)
* Mluvené korpusy (vedoucí PhDr. [[Marie Kopřivová]], PhD.)
* Diachronní korpusy (vedoucí prof. PhDr. [[Karel Kučera]], CSc.)
* Lingvistická analýza a anotace (vedoucí doc. RNDrRnDr. [[Vladimír Petkevič]], CSc., <ref>[http://utkl.ff.cuni.cz/ ÚTKL]</ref>)
* Paralelní korpusy (vedoucí Ing. [[Alexander Rosen]], PhD. <ref>[http://utkl.ff.cuni.cz/ ÚTKL]</ref>)
 
== Činnost ==
 
== Činnost ==
Hlavním posláním ÚČNK je kontinuální rozvoj a budování jazykových korpusů různých typů. Představují reprezentativní lingvisticky zpracované datové základny pro empirický a exaktní výzkum českého jazyka a jde především o korpusy zachycující češtinu v  jejím současném stavu (synchronní korpusy psaného a mluveného jazyka), v  jejím historickém vývoji (diachronní korpusy) a v překladovém srovnání s  jinými jazyky (paralelní korpusy).
 
S budováním korpusů úzce souvisí též bezplatná veřejná služba poskytování internetového uživatelského přístupu ke všem korpusům pomocí specializovaných rozhraní a nástrojů (např. nástroj pro porovnání variant [http://syd.korpus.cz/ SyD]) a podpora uživatelů (prostřednictvím on-line [http://www.korpus.cz/bonito/index.php manuálu], [http://www.korpus.cz/vyuka.php seminářů], workshopů a [http://www.korpus.cz/konzultace.php konzultací]).
 
==== Řady korpusů ====
V současnosti projekt ČNK spravuje následující řady korpusů<ref>[http://www.korpus.cz/struktura.php Dostupné korpusy]</ref>:
 
'''Korpusy psané současné češtiny''' o celkovém rozsahu 1300 milionů textových slov jsou z velké části ''referenční'' (tj. neměnné, lze na ně odkazovat a opakované dotazy dají tytéž výsledky) a pokud je to výslovně uvedeno, tak i ''reprezentativní'' (vyváženě pokrývají celou šíři žánrů, jež český čtenář recipuje skrze tištěné psané texty, a reprezentují tak úzus tištěné psané češtiny) .
Reprezentativní (tj. žánrově vyvážené) korpusy obsahující sto milionů textových slov jsou zveřejňovány s pětiletou periodicitou, korpusy jednožánrové nepravidelně.
* SYN2000 - 100 mil.,žánrově vyvážený korpus, převažují texty z let 1990 - 1999
* SYN2005 - 100 mil., žánrově vyvážený korpus, převažují texty z let 2000 - 2004
* SYN2006PUB - 300 mil., korpus publicistických textů z let 1989 - 2004
* SYN2009PUB - 700 mil., korpus publicistických textů z let 1995 - 2007
* SYN2010 - 100 mil., žánrově vyvážený korpus, převažují texty z let 2005 - 2009
 
* [http://www.korpus.cz/syn2000.php SYN2000] - 100 mil., žánrově vyvážený korpus, převažují texty z let 1990 - 1999
'''Korpusy mluvené češtiny''' o celkovém objemu cca 3 miliony textových slov. Mluvené korpusy řady ORAL zachycují autentickou mluvu v neformálních situacích a jsou doplněny základními sociolingvistickými údaji o mluvčích, korpus ORAL2008, pokrývající celé území Čech, je navíc vyvážen v hlavních sociolingvistických kategoriích. Připravované rozhraní zpřístupní i anonymizované zvukové nahrávky.
* [http://www.korpus.cz/syn2005.php SYN2005] - 100 mil., žánrově vyvážený korpus, převažují texty z let 2000 - 2004
* Pražský mluvený korpus
* [http://www.korpus.cz/syn2006pub.php SYN2006PUB] - 300 mil., korpus publicistických textů z let 1989 - 2004
* Brněnský mluvený korpus
* [http://www.korpus.cz/syn2009pub.php SYN2009PUB] - 700 mil., korpus publicistických textů z let 1995 - 2007
* Oral2006
* [http://www.korpus.cz/syn2010.php SYN2010] - 100 mil., žánrově vyvážený korpus, převažují texty z let 2005 - 2009
* Oral2008
Nereferenční spojení všech synchronních psaných korpusů řady SYN představuje pravidelně aktualizovaný [http://www.korpus.cz/syn.php syn].
 
'''Korpusy mluvené češtiny''' o celkovém objemu cca 3 miliony textových slov. Mluvené korpusy řady ORAL zachycují autentickou mluvu v neformálních situacích a jsou doplněny základními sociolingvistickými údaji o mluvčích, korpus [http://ucnk.ff.cuni.cz/ORAL2008.php ORAL2008] , pokrývající celé území Čech, je navíc vyvážen v hlavních sociolingvistických kategoriích. Připravované rozhraní zpřístupní i anonymizované zvukové nahrávky.
'''Korpus diachronní''' (DIAKORP)
* [http://www.korpus.cz/pmk.php Pražský mluvený korpus] - 675 000 slov, zveřejněn r. 2001
* [http://www.korpus.cz/bmk.php Brněnský mluvený korpus] - 490 000, zveřejněn r. 2002
* [http://www.korpus.cz/ORAL2006.php Oral2006] - 1 mil., korpus neformální mluvené češtiny, zveřejněn r. 2006
* [http://www.korpus.cz/ORAL2008.php Oral2008]) - 1 mil., sociolingvisticky vyvážený korpus neformální mluvené češtiny, zveřejněn r. 2008
 
'''Korpus diachronní''' je ve snaze o jednotné, co nejsnazší a nejvšestrannější prohledávání textů z celého sedmisetletého historického vývoje češtiny transkribován. Lze k němu přistupovat též pomocí nástroje [http://syd.korpus.cz/ SyD] a zkoumat např. vývoj zastoupení variant.
'''Korpusy paralelní''' (InterCorp) zahrnující překladové ekvivalenty českých textů do více než dvaceti jazyků.<ref>[http://www.korpus.cz/struktura.php Dostupné korpusy]</ref>
* [http://www.korpus.cz/diakorp.php DIAKORP] - ca 2 mil. slov, nereferenční korpus od konce 13. století do r. 1945, resp. 1989.
 
'''Korpusy paralelní''' ([http://www.korpus.cz/intercorp-info.php InterCorp]) zahrnují překladové ekvivalenty českých textů do více než dvaceti jazyků. V současnosti mají ca 92 mil. slov, ze žánrů obsahují beletrii, publicistiku a právní texty (Acquis Communautaire).
 
== Publikace ==
ÚČNK dlouhodobě spolupracuje s [[Nakladatelství Lidové noviny|Nakladatelstvím Lidové noviny]], <ref> [http://ucnk.ff.cuni.cz/publikace.php přehled publikací] </ref>, kde mj. vydává řadu Studie z korpusové lingvistiky. Dále vyšlo:
* ÚČNK vydává např. frekvenční slovníky:
*Frekvenční slovník češtiny (NLN, 2004)
**Frekvenční slovník mluvené češtiny (KarolinumNLN, 20072004)
**Frekvenční slovník mluvené češtiny (NLNKarolinum, 20042007)
**A Frequency Dictionary of Czech: Core Vocabulary for Learners (Routledge, 2011)
*Mluvnice současné češtiny (Karolinum, 2010)
* Na korpusových datech je založena i gramatika:
**Mluvnice současné češtiny (Karolinum, 2010)
 
Ke stažení jsou zpřístupněny též [http://www.korpus.cz/retrograd10.php abecední a retrográdní slovníky,] založené na korpusech řady SYN.
 
== Historie ==
Ústav Českého národního korpusu byl založen [[9. září]] [[1994]]. Pravidelnou činnost vyvíjí od [[1. říjen|1. října]] [[1996]], kdy byl sestaven kolektiv stálých zaměstnanců. Roku 2000 byl zveřejněn první stomilionový žánrově vyvážený korpus, SYN2000. <ref>[http://www.ikaros.cz/node/355 Ikaros – Český národní korpus]</ref>
 
== Reference ==
<references/>
 
== Externí odkazy ==
Řádek 60 ⟶ 63:
* [http://blog.aktualne.centrum.cz/blogy/vaclav-cvrcek.php Blog korpusového lingvisty - V. Cvrček na Aktuálně]
 
== Reference ==
{{Portály|Jazyk}}
<references/>
 
 
{{Portály|Jazyk}}
[[Kategorie:Lexikografie]]
[[Kategorie:Čeština]]