Unicode: Porovnání verzí

Smazaný obsah Přidaný obsah
m Ioština -> Yi (jazyk), odkazy na CJK, drobné opravy
Úpravy v kódování UTF-8, sloučení historií
Řádek 1:
[[Soubor:Unicode logo.svg|thumb|right|180px|Logo Unicode konsorcia]]
'''Unicode''' ({{Vjazyce|en}} {{Cizojazyčně|en|''Unicode''}}) je [[technická norma]] pro oblast [[Výpočetní technika|výpočetní techniky]] definující konzistentní [[Znaková sada|kódování]] pro reprezentaci a zpracovávání [[Znak (počítače)|textů]] použitelné pro většinu [[Písmo|písem]] používaných v současnosti na planetě Zemi. Unicode je vyvíjen v součinnosti s [[ISO/IEC 10646]] a je publikován elektronicky jako ''The Unicode Standard''. Nejnovější verze obsahuje repertoár více než 120000 [[znak (počítače)|znaků]] pokrývajících 129 moderních a historických [[Písmo|písem]] a mnoho sad symbolů. Standard sestává ze sady tabulek pro vizuální referenci, metodypopisu kódování, sady standardníchmetod kódování znaků, sady referenčních datových [[soubor]]ů a dalších příbuzných položek, jako například vlastností znaků, pravidel pro [[Unicode normalizace|normalizaci]] textů, dekompozici, [[Abecední řazení|řazení]], vykreslování a zobrazování [[obousměrný text|obousměrného textu]] (pro správné zobrazení textu obsahující písma psaná zprava doleva i zleva doprava, jako například [[arabské písmo|arabské ]] a [[hebrejské písmo]]).<ref>{{Citace elektronické monografie
| titul = The Unicode Standard: A Technical Introduction
| url =http://www.unicode.org/standard/principles.html
Řádek 9:
Unicode definuje několik způsobů reprezentace textů různými [[znakový kód|znakovými kódy]]. K nejpoužívanějším kódováním patří [[UTF-8]], [[UTF-16]] a zastaralé [[UCS-2]]. UTF-8 používá jeden [[Bajt|byte]] pro libovolný [[ASCII]] znak, přičemž všechny ASCII znaky mají v UTF-8 stejné kódové hodnoty jako ASCII a dva až čtyři byty pro jiné znaky. UCS-2 používá 16bitové kódové jednotky (dva [[oktet (informatika)|8bitové byty]]) pro každý znak, ale neumožňuje kódovat všechny znaky v aktuálním standardu Unicode. UTF-16 je rozšíření UCS-2, které pomocí dvou 16bitových jednotek (4&nbsp;×&nbsp;8&nbsp;bit) umožňuje kódovat všechny znaky z Unicode.
 
== VývojHistorie ==
Ke konci osmdesátých let 20. století vznikla naléhavá potřeba sjednotit různé kódové tabulky znaků pro národní abecedy. Například [[český jazyk]] používal v informatice nejméně 5 různě kódovaných tabulek ([[Kód Kamenických|kódování bratří Kamenických]], [[CP852|PC Latin 2]], [[Windows-1250]], [[ISO 8859-2|ISO Latin 2]], … <ref>[http://www.cestina.cz/kodovani/ Přehled kódování češtiny]</ref>). Vznikaly značné problémy při spolupráci aplikací a při přenosech dat mezi programy a různými platformami. Podobná situace byla ve všech jazycích, které nevystačily se základní 7bitovou tabulkou [[ASCII]] znaků.
 
Řádek 15:
 
Kolem roku [[1991]] došlo k dohodě a projekty spojily své úsilí na vytvoření jednotné tabulky. Oba projekty stále existují a publikují své [[standard]]y samostatně, ale tabulky znaků jsou kompatibilní a jejich rozšiřování je koordinováno.
 
=== Historie verzí Unicode ===
 
* Unicode '''1.0''' ([[1991]])
* Unicode '''1.1''' ([[1993]])
* [http://www.unicode.org/versions/Unicode2.0.0/ Unicode '''2.0'''] ([[1996]])
* [http://www.unicode.org/versions/Unicode2.1.0/ Unicode '''2.1'''] ([[1998]])
* [http://www.unicode.org/versions/Unicode3.0.0/ Unicode '''3.0'''] ([[1999]], [[2000]])
* [http://www.unicode.org/versions/Unicode3.1.0/ Unicode '''3.1'''] ([[2001]])
* [http://www.unicode.org/versions/Unicode3.2.0/ Unicode '''3.2'''] ([[2002]])
* [http://www.unicode.org/versions/Unicode4.0.0/ Unicode '''4.0'''] ([[2003]])
* [http://www.unicode.org/versions/Unicode4.1.0/ Unicode '''4.1'''] ([[2005]])
* [http://www.unicode.org/versions/Unicode5.0.0/ Unicode '''5.0'''] ([[2006]])
* [http://www.unicode.org/versions/Unicode5.1.0/ Unicode '''5.1'''] ([[2008]])
* [http://www.unicode.org/versions/Unicode5.2.0/ Unicode '''5.2'''] ([[2009]])
* [http://www.unicode.org/versions/Unicode6.1.0/ Unicode '''6.0'''] ([[2010]])
* [http://www.unicode.org/versions/Unicode6.1.0/ Unicode '''6.1'''] ([[2012]])
* [http://www.unicode.org/versions/Unicode6.2.0/ Unicode '''6.2'''] ([[2012]])
* [http://www.unicode.org/versions/Unicode6.3.0/ Unicode '''6.3'''] ([[2013]])
 
Unicode verze 1.1 odpovídá normě ISO 10646-1:1993, Unicode 3.0 odpovídá ISO 10646-1:2000, Unicode 4.0 odpovídá třetí verzi ISO 10646:2003. Všechny verze Unicode od 2.0 výše jsou zpětně kompatibilní, jsou přidávány pouze nové znaky, existující znaky nejsou vyřazovány nebo přejmenovávány.
 
Unicode se drží zároveň důležitého pravidla jednotné metody zjišťování totožnosti znaků, efektivnější a snadněji přizpůsobitelná než předchozí kódovací systémy. Umožňuje vícejazyčnésoučasně přesnějipoužívat mnohopísmovérůzná prácepísma spři textemvícejazyčném zpracování textu v počítači a kóduje široké portfolio znaků pro profesionální zpracování textů v prakticky jakémkoli moderním i historickém jazyce.
 
*=== Unicode 57.0 ===
[http://www.unicode.org/versions/Unicode7.0.0/ Unicode verze '''7.0'''] bylo vydáno [[16. červen|16. června]] [[2014]]. Tato verze rozšířila množinu znaků především o asi 250 znaků [[emodži]].<ref>{{Citace elektronického periodika
| příjmení = Němec
| jméno = Petr
| autor =
| odkaz na autora =
| spoluautoři =
| titul = Unicode Standard 7.0: přibližně 250 nových „smajlíků“
| periodikum = Root.cz
| odkaz na periodikum = Root.cz
| datum vydání = 2014-06-17
| datum aktualizace =
| datum přístupu = 2014-08-26
| ročník =
| číslo =
| strany =
| url = http://www.root.cz/zpravicky/unicode-standard-7-0-priblizne-250-novych-smajliku/
| issn = 1212-8309
}}</ref> Celkem Unicode 7.0 přidává 2834 nových znaků a zavádí 23 nových jazyků.<ref>[http://www.unicode.org/versions/Unicode7.0.0/ Unicode 7.0.0] na unicode.org, cit. 2014-08-26</ref> Z celkového počtu znaků jich 327 bylo přidáno do BMP, ostatních 2507 bylo přidáno do Plane 1.
 
*=== Unicode 68.0 ===
 
Nejnovější verze normy, ''The Unicode Standard 8.0.0''<ref>[http://www.unicode.org/versions/Unicode8.0.0/ Unicode verze '''8.0.0''']</ref>, byla vydána v červnu 2015 a je dostupná na WWW serveru konsorcia. Definuje celkem 120737 grafických znaků ve 129 písmech; zavádí podporu abecedy Ahom, anatolských hieroglyfů, abeced Hatran, Multani, [[Rovas]] a [[znakopis]]u, doplňuje 5771 unifikovaných [[CJK]] ideografů, sadu malých písmen pro slabičné písmo Cherokee a pět emoji modifikátorů pro odstíny kůže<ref>{{Citace elektronické monografie
== Dnes ==
Nejnovější verze normy, ''The Unicode Standard 8.0'', byla vydána v červnu 2015 a je dostupná na WWW serveru konsorcia. Definuje celkem 120737 grafických znaků ve 129 písmech; zavádí podporu abecedy Ahom, anatolských hieroglyfů, abeced Hatran, Multani, [[Rovas]] a [[znakopis]]u, doplňuje 5771 unifikovaných [[CJK]] ideografů, sadu malých písmen pro slabičné písmo Cherokee a pět emoji modifikátorů pro odstíny kůže<ref>{{Citace elektronické monografie
| titul = Unicode Data 8.0.0
| url = http://www.unicode.org/Public/8.0.0/ucd/UnicodeData.txt
Řádek 27 ⟶ 67:
</ref>.
 
Poslední hlavní verze (verze x.0) publikovaná v knižní podobě byla verze Unicode 5.02 (ISBN 0-321-48091-0); od verze 6.0 je plný text normy není publikován vpouze knižní podoběelektronicky; v roce 2012 bylo oznámeno, že od verze 6.1 bude v knižní podobě dostupné pouze jádro normy (v té době čítající 692 stránek) tištěných na žádost.<ref name="version6.1PoD">{{Citace elektronické monografie|titul = Unicode 6.1 Paperback Available|url=http://www.unicode.org/mail-arch/unicode-ml/y2012-m05/0240.html|work=announcements_at_unicode.org|accessdate=2012-05-30}}</ref> Na rozdíl od předchozích hlavních verzí výtisků normy, tištěná verze nezahrnuje žádné tabulky kódu nebo doplňky standardu. Celý standard, včetně jádra, je volně dostupný na WWW serveru Unicode konsorcia<ref>[http://www.unicode.org/ The Unicode Consortium]</ref>.
 
== Původní cíle standardu Unicode ==
Řádek 252 ⟶ 292:
 
==== UTF-8 ====
V [[UTF-8]] sekóduje znaky kódují různě dlouhoudlouhými (1–61–4 bajty, pro původní 31bitové [[ISO/IEC 10646]] až 6 bytů) posloupností bajtů podle jejich pozice[[kódový bod|kódu]] v Unicode. Znaky [[ASCII]] (U+0000 – U+007F) jsou kódovány jedním bajtem, identicky jako v ASCII, znaky v rozsahu U+0080 – U+07FF (kde jsou také všechny znaky s diakritikou používané v české abecedě) jsou kódovány dvěma bajty, znaky U+0800 – U+FFFF (kam patří znak Euro – € – U+20AC) jsou kódovány třemi bajty, znaky mimo BMP jsou kódovány čtyřmi bajty. Znaky pros kterévyššími bykódy sepodle použilopůvodního návrhu [[ISO/IEC 10646]] by používaly pětibajtové a šestibajtové kódování zatím nebyly definovány.
 
UTF-8 se často se používá pro přenos dat, neboť je prostorově úsporné (hlavně pro texty psané latinkou s nevelkým počtem znaků s diakritikou, které obsahují většinu jednobajtových a zbytek dvoubajtových kódů; v nelatinkových písmech je většina textu tvořena dvoubajtovými kódy, písma [[Dálný východ|Dálného východu]] používají tříbajtové kódy), je odolné proti chybám a zpětně kompatibilní s ASCII. Při jeho zpracování je však nepříjemná nestejná délka znaků.<ref>''The Unicode Standard, Version 5.2'', kapitola 2.5 ''Encoding Forms'', s. 28</ref>
Řádek 348 ⟶ 388:
|}
 
== Historie verzí UnicodeOdkazy ==
* Unicode 5.0
* Unicode 5.1
* Unicode 5.2
* Unicode 6.0
* Unicode 6.1
* Unicode 6.2
* Unicode 6.3
 
=== Unicode 7.0Reference ===
Unicode verze 7.0 bylo vydáno [[16. červen|16. června]] [[2014]]. Tato verze rozšířila množinu znaků především o asi 250 znaků [[emodži]].<ref>{{Citace elektronického periodika
| příjmení = Němec
| jméno = Petr
| autor =
| odkaz na autora =
| spoluautoři =
| titul = Unicode Standard 7.0: přibližně 250 nových „smajlíků“
| periodikum = Root.cz
| odkaz na periodikum = Root.cz
| datum vydání = 2014-06-17
| datum aktualizace =
| datum přístupu = 2014-08-26
| ročník =
| číslo =
| strany =
| url = http://www.root.cz/zpravicky/unicode-standard-7-0-priblizne-250-novych-smajliku/
| issn = 1212-8309
}}</ref> Celkem Unicode 7.0 přidává 2834 nových znaků a zavádí 23 nových jazyků.<ref>[http://www.unicode.org/versions/Unicode7.0.0/ Unicode 7.0.0] na unicode.org, cit. 2014-08-26</ref> Z celkového počtu znaků jich 327 bylo přidáno do BMP, ostatních 2507 bylo přidáno do Plane 1.
 
== Literatura ==
* The Unicode Consortium: [http://www.unicode.org/versions/Unicode5.2.0/ The Unicode Standard, Version 5.2.0.] Mountain View, CA: The Unicode Consortium, 2009. ISBN 978-1-936213-00-9.
 
== Reference ==
{{Překlad|en|Unicode|678771760}}
<references />
 
=== Externí odkazyLiteratura ===
 
* The Unicode Consortium: [http://www.unicode.org/versions/Unicode5.2.0/ The Unicode Standard, Version 5.2.0.] Mountain View, CA: The Unicode Consortium, 2009. ISBN 978-1-936213-00-9. Poslední tištěná verze Unicode standardu.
 
=== Externí odkazy ===
 
* [http://unicode.org/ unicode.org] – oficiální stránky (anglicky)
 
* [http://www.decodeunicode.org/ DecodeUnicode] – Unicode wiki (anglicky, německy)
* [http://www.cl.cam.ac.uk/~mgk25/unicode.html UTF-8 and Unicode FAQ for Unix/Linux]