Smazaný obsah Přidaný obsah
Verze 13333008 uživatele Oashi (diskuse) zrušena: cože? k čemu je to dobré??
→‎UTF-8: sjednocení jednotek na bajty a oprava na "kóduje znaky různě DLOUHOU posloupností"
Řádek 166:
 
==== UTF-8 ====
[[UTF-8]] kóduje znaky různě dlouhýmidlouhou (1–4 bajty, pro původní 31bitové [[ISO/IEC 10646]] až 6 bytůbajtů) posloupností bajtů podle jejich [[kódový bod|kódu]] v Unicode. Znaky [[ASCII]] (U+0000 – U+007F) jsou kódovány jedním bajtem, identicky jako v ASCII, znaky v rozsahu U+0080 – U+07FF (kde jsou také všechny znaky s diakritikou používané v české abecedě) jsou kódovány dvěma bajty, znaky U+0800 – U+FFFF (kam patří znak Euro – € – U+20AC) jsou kódovány třemi bajty, znaky mimo BMP jsou kódovány čtyřmi bajty. Znaky s vyššími kódy podle původního návrhu [[ISO/IEC 10646]] by používaly pětibajtové a šestibajtové kódování.
 
UTF-8 se často se používá pro přenos dat, neboť je prostorově úsporné (hlavně pro texty psané latinkou s nevelkým počtem znaků s diakritikou, které obsahují většinu jednobajtových a zbytek dvoubajtových kódů; v nelatinkových písmech je většina textu tvořena dvoubajtovými kódy, písma [[Dálný východ|Dálného východu]] používají tříbajtové kódy), je odolné proti chybám a zpětně kompatibilní s ASCII. Při jeho zpracování je však nepříjemná nestejná délka znaků.<ref>''The Unicode Standard, Version 5.2'', kapitola 2.5 ''Encoding Forms'', s. 28</ref>