Unicode: Porovnání verzí

Smazaný obsah Přidaný obsah
HypoBOT (diskuse | příspěvky)
m Přidání šablony Commonscat dle ŽOPP z 28. 7. 2016; kosmetické úpravy
m byte -> bajt (sjednocení)
Řádek 7:
Úspěch Unicode v unifikaci znakových sad vedl k jeho rozšíření a převládajícímu používání pro [[Internacionalizace a lokalizace|internacionalizaci a lokalizaci]] [[Software|počítačového softwaru]]. Unicode je implementován mnoha technologiemi, včetně moderních [[operační systém|operačních systémů]], [[XML]], [[Java (programovací jazyk)|programovacím jazykem Java]] a [[.NET]] Frameworkem firmy [[Microsoft]].
 
Unicode definuje několik způsobů reprezentace textů různými [[znakový kód|znakovými kódy]]. K nejpoužívanějším kódováním patří [[UTF-8]], [[UTF-16]] a zastaralé [[UCS-2]]. UTF-8 používá jeden [[Bajt|bytebajt]] pro libovolný [[ASCII]] znak, přičemž všechny ASCII znaky mají v UTF-8 stejné kódové hodnoty jako ASCII a dva až čtyři bytybajty pro jiné znaky. UCS-2 používá 16bitové kódové jednotky (dva [[oktet (informatika)|8bitové bytybajty]]) pro každý znak, ale neumožňuje kódovat všechny znaky v aktuálním standardu Unicode. UTF-16 je rozšíření UCS-2, které pomocí dvou 16bitových jednotek (4 × 8 bit) umožňuje kódovat všechny znaky z Unicode.
 
== Historie ==
Řádek 135:
;Délka textu: Text je po převádění z osmibitového kódování Unicode 2× delší, ale bez přidání nějaké informační hodnoty. Výsledný text zabere víc místa při uložení a také další zpracování je pomalejší.
 
;Neslučitelnost s osmibitovým prostředím: Unicode text může mít znaky, které v "normálním", osmibitovém textu normálně nejsou a většinou mají speciální význam - jde především o binární nulu, kterou Unicode text může obsahovat jako vyšší bytebajt dvoubytovéhodvoubajtového kódu. Nejde tedy použít stávající programový kód pro práci s textem a musí se od začátku přepsat. Nejde lehce zjistit, jestli text je v Unicode nebo ne, nejde proto lehce zároveň používat Unicode a nějaké další osmibitové kódování. Není možné přejít na Unicode jen z části, je nutný celkový přechod, aby aplikace nejen dostaly text v Unicode, ale aby hlavně Unicode text i očekávaly. Okolnost, že to jde v rámci uzavřeného systému, ukazuje firma Sun s Javou, pracující vnitřně v Unicode, a také produkty firmy Microsoft. Subvenci Unicode však nelze zajistit obecně a nelze kalkulovat s tím, že mu druhá strana bude vždy rozumět – uveřejnění v poště nebo na WWW stránkách je tedy velmi problematické. Ale v tomto bodě se však situace pomalu mění k lepšímu.
 
Každý znak má jednoznačný číselný kód a svůj název. Navíc Unicode definuje u každého znaku některé základní vlastnosti jako např. zda se jedná o písmeno, symbol atd., zda je písmeno [[majuskule|velké]] či [[minuskule|malé]] atp.
Řádek 175:
 
==== UCS-2 ====
UCS-2 je původní způsob zápisu Unicode znaků. Pro uložení dat se využívá posloupnost dvoubajtových částí. Konec textového řetězce může být označen například 16bitovým NULL, tedy 0x0000; je potřeba dát si pozor, že osmibitové NULL (0x00) se může objevovat v nižším nebo vyšším bytebajtu čísla Unicode znaku. Velkou výhodou UCS-2 oproti jiným formám je konstantní délka znaku a snadné zjišťování počtu znaků v řetězci, je tedy vhodná zejména pro vnitřní reprezentaci Unicode znaků v programu.
 
==== Další kódování ====