Smazaný obsah Přidaný obsah
m reformulace + link
m link
Řádek 1:
'''CESU-8''' (zkratka [[angličtina|anglického]] ''Compatibility Encoding Scheme for UTF-16: 8-bit'', ''Schéma pro kompatibilní kódování UTF-16, 8[[bit]]ové'') je způsob [[kódování]] znaků [[Unicode]], který je téměř shodný s [[UTF-8]], ale liší se způsobem práce se znaky od U+10000 výše. Je určen výhradně pro vnitřní použití v systémech, které nejsou schopny dobře pracovat s úplnou znakovou sadou Unicode při použití standardních kódování, není zamýšlen jako formát pro obecnou výměnu dat.
 
Při kódování do CESU-8 se vstupní text nejprve zakóduje do [[UTF-16]] (tj. znaky mimo ''[[Basic Multilingual Plane]]'' se zapíší pomocí ''[[surrogate pairs]]''), výsledek se poté zakóduje pomocí UTF-8. Znamená to, že kódování znaků BMP (všechny znaky od U+0000 do U+FFFF) je shodné v UTF-8 i CESU-8. Znaky, které jsou v UTF-8 kódovány do čtyř [[bajt]]ů, jsou však v CESU-8 kódovány pomocí šestibajtové posloupnosti.<ref>[http://www.unicode.org/reports/tr26/ ''Unicode Technical Report #26: Compatibility Encoding Scheme for UTF-16: 8-bit'']</ref>
 
CESU-8 je obdobné tzv. ''Modified UTF-8'', které se používá v [[Java (platforma)|Javě]], tam se ovšem navíc používá speciální kódování znaku U+0000.<ref>Norbert Lindenberg, Masayoshi Okutsu: [http://java.sun.com/developer/technicalArticles/Intl/Supplementary/#Modified_UTF-8 ''Supplementary Characters in the Java Platform''], Sun Developer Network, květen 2004</ref>