Unicode: Porovnání verzí

Smazaný obsah Přidaný obsah
m Editace uživatele 2804:D45:55C9:DE00:C563:FAD0:28E7:F7F (diskuse) vráceny do předchozího stavu, jehož autorem je InternetArchiveBot
značka: rychlé vrácení zpět
m typografie
Řádek 156:
Na rozdíl od dřívějších osmibitových tabulek znaků jako je [[Kód Kamenických|bratří Kamenických]], [[Latin 2]], [[Windows-1250]] či [[ISO-8859-2]] lze všechny znaky zobrazit zároveň; v jednom textu lze tedy kombinovat např. [[Čeština|češtinu]] ([[latinka]]), [[Ruština|ruštinu]] ([[azbuka]]) a [[Řečtina|řečtinu]] ([[alfabeta]]). Pro reprezentaci českých znaků existují dva způsoby. Buď lze použít "předkomponovaný" (precomposed) znak, tedy např. pro dlouhé A kód U+00C1, nebo je možné tento znak složit jako sekvneci U+0041, U+0301. Tedy ze znaku A (kód U+0041) a znaku COMBINING ACUTE ACCENT (kombinační dlouhý přízvuk, kód U+0301). Kombinační diakritický znak se vkládá za znak, který modifikuje. Z toho vyplývají možné problémy při porovnávání řetězců, tzn. řetězce je třeba před porovnáváním normalizovat.
 
Základní formy normalizace jsou: NFD (kanonická dekompozice), NFC (kanonická kompozice), NFKD (kompatibilní dekompozice), NFKC (kompatibilní kompozice). Více viz. přílohu [http://unicode.org/reports/tr15/ Unicode Normalization Forms] standardu Unicode.
 
==== Tabulka českých znaků Unicode ====