Čeština: Porovnání verzí

Přidáno 1 218 bajtů ,  před 7 lety
→‎Počet slov: + statistika
m ({{Commons}} -> {{Commonscat}}; kosmetické úpravy)
(→‎Počet slov: + statistika)
| místo = Praha
| jazyk = česky
}}</ref>
 
=== Statistika češtiny ===
Pro češtinu jsou typická slova o délce přibližně 8 [[grafém]]ů - slova dlouhá 6-10 grafémů pokrývají 75 % slovní zásoby. V psaném jazyce se nejvíce vyskytují grafémy ''o, e, a, n, t'', dvojice grafémů ''st, po, ní, ov, na'' a trojice grafémů ''pro, ost, ova, sta, pře''.
 
Největší skupina slovních [[kořen (mluvnice)|kořenů]] je ze 3 grafémů, tvořených kombinací souhláska-samohláska-souhláska (''had, cop, jít'') - téměř 50 % všech kořenů. Užití konkrétních slov je v každém jazyce neproporční - kdy malá skupina slov tvoří jádro slovníku, zatímco zbytek slov se užívá jen okrajově. V češtině tak 10 nejběžnějších [[lemma (lingvistika)|lemmat]] pokrývá asi 20 % textu a 1000 nejběžnějších lemmat pokrývá 65 % textu. To ovšem neznamená, že znalost 1000 slov postačuje k porozumění textu, protože každý text (i běžný) operuje s malým množstvím specifických slov, která obvykle tvoří jádro výpovědi.<ref>{{Citace monografie
| příjmení = Čermák
| jméno = František
| titul = Lexikon a sémantika
| vydavatel = NLN
| místo = Praha
| rok = 2010
| strany = 237-239
}}</ref>