Textový soubor: Porovnání verzí

Smazaný obsah Přidaný obsah
Pteryx (diskuse | příspěvky)
Řádek 19:
 
== Kódování textových souborů ==
Podle použitého [[Kódování znaků|kódování]] mohou být uvnitř textového souboru jednotlivé [[znak (počítače)|znaky]] reprezentovány jedním [[Bajt|bytem]], pevným počtem bytů (obvykle dvojicí nebo čtveřicí) nebo posloupností bytů.
 
* jedním [[Bajt|bytem]] - např. [[ASCII]], nebo 8bitové znakové sady jako [[Windows-1250]]
** tato možnost je nevýhodná pro mezinárodní spolupráci, protože neexistuje způsob jak spolehlivě poznat, v kterém ze desítek používaných osmibitových kódování je daný textový soubor; např. pouze pro češtinu se používalo několik osmibitových kódování (ISO8859-2, Windows-1250, kódování Kamenických, ...)
* pevným počtem bytů - např. [[UTF-32]] (čtveřice bytů) nebo [[UCS-2]] (dvojice bytů)
** u těchto kódování hrozí problémy s nejednoznačností pořadí bajtů, protože různé systémy mohou používat různou [[Endianita|endianitu]]
* posloupností bytů - např. [[UTF-8]], [[UTF-16]], nebo [[GB18030]]
** taková kódování mohou být být [[Zpětná kompatibilita|zpětně kompatibilní]] s ASCII ([[UTF-8]], [[GB18030]])
** kódování [[UTF-16]] je nadmnožinou [[UCS2|UCS-2]], pro běžné texty se chová jako kódování s pevným počtem bajtů, včetně problémů s endianitou
 
Při použití kódování [[ASCII]] je každý znak uložen v jednom [[Bajt|bytu]]; stejně tomu bylo u různých [[Kódování češtiny#Osmibitová kódování češtiny|osmibitových kódování]] používaných pro zápis národních znaků.