Jazykový korpus: Porovnání verzí

Smazaný obsah Přidaný obsah
Ximara (diskuse | příspěvky)
→‎Brown Corpus: Oprava překlepů
značky: editace z mobilu editace z mobilního webu
Ximara (diskuse | příspěvky)
→‎British National Corpus: Oprava překlepů
značky: editace z mobilu editace z mobilního webu
Řádek 33:
 
=== British National Corpus ===
'''British National Corpus''' (zkráceně '''BNC''') je korpus, který vznikal ve spolupráci tří nakladatelů ([[Oxford University Press]], Longman a W. & R. Chambers), dvou univerzit ([[Oxfordská univerzita|Oxfordské univerzity]] a [[Lancaster University|univerzity v Lancasteru]]) a britské národní knihovny v letech 1991–1994, přičemž zveřejněn byl v roce 1994. Jedná se o vyvážený korpus sse 100 miliony slov a rozvětvenou strukturou. Tento korpus je vyvážený, zahrnuje jak časopisy, noviny, tak odbornou literaturu i beletrii. V korpusu nalezneme vzorky jednotlivých textů, od jednoho autora maximálně 45 tisíc slov. Zachycuje britskou angličtinu (z let, ve kterých vznikal, tedy 1991–1994) a kromě psaných textů v něm nalezneme i mluvenou angličtinu v poměru 9 : 1 (psaná : mluvená). Mluvená angličtina byla do korpusu převedena pomocí ortografické transkripce. BNC je zafixovaný a nic se do něj nepřidává; jediné, co se mění, je značkování.
 
V rámci BNC jsou dva menší subkorpusy, které jsou určeny pro zkoumání jazyka. Prvním z nich je '''BNC Sampler''', který obsahuje jeden milion mluvené angličtiny a jeden milion psaných textů. Druhým je '''BNC Baby''', do nějž jsou zahrnuty čtyři milionové vzorky ze čtyř různých žánrů.