Jazykový korpus: Porovnání verzí

Smazaný obsah Přidaný obsah
Ximara (diskuse | příspěvky)
vložena kapitola o anglických korpusech
Ximara (diskuse | příspěvky)
→‎Brown Corpus: Oprava překlepů
značky: editace z mobilu editace z mobilního webu
Řádek 21:
 
=== Brown Corpus ===
'''Brown University Standard Corpus of Present-Day American English''' neboli zkráceně '''Brown Corpus''' je dílem dvou autorů – [[Jindřich Kučera (lingvista)|Henryho Kučery]] (původem Čech, studoval na Univerzitě Karlově) a W. N. Francise, kteří tou dobou působili na [[Brownova univerzita|Brownově univerzitě]]. Jedná se o korpus, který vznikal v letech 1963–1934, přičemž obsahuje texty z roku 1961 ve snaze zachytit jazyk v určitém období (trend, který se u tvorby korpusů volí i dnes). Cílem zkoumání je psaná americká angličtina rodilých mluvčích. V korpusu se neuchovávají celé texty, ale pouze vzorky, a to z toho důvodu, aby byl korpus vyvážený. Celkově je v něm využito 15 kategorií, mezi které patří časopisy, noviny, odpornáodborná literatura i beletrie. Z každého textu je vybrán vzorek 2 000 slov a celkový počet vzorků se rovnal 500. Celkový rozsah byl kolem jednoho milionu slov. Korpus Brown je morfologicky označkován, využito je 80 kategorií a značkovala se například i interpunkce i speciální znaky.
 
Korpus Brown velice ovlivnil další generace lingvistů a je svým rozvržením vzorem mnoha dalších korpusů. Zajímavostí je, že v 80. letech vznikl '''The Freiburg-LOB corpus of BritishAmerican English (Frown)''', který byl obdobou korpusu Brown. Vznikl na [[Freiburská univerzita (Německo)|Freiburské univerzitě]] v Německu. Měl úplně stejnou strukturu a snažil se zachytit britskou angličtinu z roku 1991. O značkování byl doplněn v roce 2007.
 
Na korpusu Brown je založeno několik publikací. Nejznámější z děl založených na korpusu vůbec je ''Computional Analysis of Present-Day American English'' od autorů korpusu (Kučera, Francis). Jedná se o statistickou studii, ve které se kombinuje lingvistika, psychologie a statistika.