sed

programovací jazyk
Tento článek je o počítačovém programu. Další významy jsou uvedeny na stránce Sed (rozcestník).

sed (zkratka pro stream editor) je jednoduchý, ale výkonný počítačový program, sloužící k aplikaci rozličných předdefinovaných textových transformací na sekvenční proud textových dat. Po jednotlivých řádcích prochází vstupní soubor, dle pravidel určených v jednoduchém jazyku (sedovském skriptu) každý řádek upraví a poté vypíše. Sed původně vytvořil někdy na přelomu let 1973/1974 Lee E. McMahonBellových laboratoří jako unixový nástroj, dnes je však dostupný pro téměř všechny operační systémy podporující příkazový řádek.

Sed je často nazýván neinteraktivním textovým editorem. Od konvenčních textových editorů se odlišuje způsobem, jakým je vstup zpracováván. Místo toho, aby jednou prošel seznam příkazů a každý z nich aplikoval na celý text, uložený v paměti počítače, prochází sed textovým souborem jednou a na každý řádek aplikuje seznam příkazů. Protože je v jednu chvíli v paměti jen jediný řádek, dokáže sed zpracovat i opravdu velké textové soubory.

Sedovské příkazy vychází z editoru ed a většina příkazů funguje podobně, avšak v obrácené formě. Například: příkaz 25d znamená je-li toto řádek číslo 25, pak jej smaž (a nevypisuj), namísto jdi na řádek 25 a smaž ho, jako tomu bylo v editoru ed. Důležitou výjimku tvoří příkazy pro kopírování a přesun, které zasahují do více řádků a nemají tedy v sedu přímý ekvivalent. Namísto nich přináší sed zvláštní vyrovnávací paměť (buffer) a dodatečné příkazy pro práci s ním. Například příkaz edu pro zkopírování řádku 25 na řádek 76 (25t76) by byl v sedu proveden pomocí dvou příkazů (25h; 76g) pro uložení řádku do bufferu až do chvíle, kdy bude znovu použit.

Následující příklad ukazuje typické využití sedu:

$ sed 's/původní/nový/g' vstupniSoubor > vystupniSoubor

V příkazu předaném jako první parametr s znamená nahraď (substitute), g znamená globálně, tj. každý vyhovující výskyt na řádku bude nahrazen. Za prvním lomítkem začíná regulární výraz pro vyhledání. Za druhým lomítkem je výraz pro jeho nahrazení. Příkaz náhrady (s///) je nejsilnější a nejpoužívanější sedovský příkaz. Příkaz samotný případně další příkazy mohou být přidány s parametrem -e.

V systémech unixového typu je sed často využíván jako filtr v rouře:

$ generuj_data | sed 's/x/y/'

Na vytvořená data je aplikován malá změna, spočívající v náhradě x za y.

Více nahrazení či jiných příkazů lze uložit například do souboru nahrada.sed a poté použít:

$ sed -f nahrada.sed vstupniSoubor > vystupniSoubor

Vedle nahrazování jsou možné i další jednoduché úpravy. Následující skript kupříkladu smaže prázdné řádky nebo řádky obsahující jen mezery:

$ sed '/^ *$/d' vstupniSoubor

V příkladu je použito následujících metaznaků:

  • ^ : vyhovuje začátku řádku
  • $ : vyhovuje konci řádku
  • . : vyhovuje libovolnému jednomu znaku
  • * : vyhovuje žádnému nebo libovolnému počtu výskytů předchozího znaku
  • [] : vyhovuje kterémukoli ze znaků uvedených v hranatých závorkách

Komplexní konstrukce jsou v sedu možné do té míry, že jej lze považovat za vysoce specializovaný, třebaže jednoduchý, programovací jazyk. Tok programu lze například řídit použitím návěstí (dvojtečka následovaná řetězcem, tj. názvem návěstí) a instrukce b; instrukce b, následovaná názvem návěstí přesune zpracovávání do bloku za návěstím. Pokud návěstí neexistuje, pak dojde k ukončení skriptu.

Sed je jedním z nejstarších unixových nástrojů, umožňujících zpracování datových souborů z příkazového řádku. Stal se z něj přirozený nástupce populárního příkazu grep. Jako bratranec pozdějšího AWK umožnil sed provádění zajímavých a mocných datových úprav v kombinaci s shellovými skripty. Sed byl také jedním z prvních unixových nástrojů, který skutečně vybízel k všestrannému využití regulárních výrazů. Co se týče rychlosti operací je sed obecně rychlejší než Perl a podstatně rychlejší než AWK.

SedAWK jsou často prohlašovány za předchůdce a inspirativní zdroje pro jazyk Perl; konkrétně příkaz s/// je součástí perlovské syntaxe.

Jazyk sedu nemá proměnné a má pouze primitivní goto a schopnost větvení. Přesto je však turingovsky úplný.

GNU sed přináší několik nových funkcí, jako je okamžitá editace souborů (tj. nahrazení původního souboru výsledkem aplikace sedovského programu). Okamžité editace se často využívá namísto skriptů editoru ed, např.:

$ sed -i 's/abc/def/' soubor

…lze použít místo:

$ ed soubor
1,$ s/abc/def/
w
q

Také existuje rozšířená verze sedu, nazvaná Super-sed (ssed), zahrnující regulární výrazy kompatibilní s Perlem.

Ukázka kódu

editovat

Přestože sed obvykle pracuje s jedním řádkem, následující příklad odebere znak nového řádku z věty tam, kde následující řádek začíná mezerou.

Mějme následující text:

Tohle je moje kočka,
  jmenuje se Micina
Tohle je můj pes,
  jmenuje se Žeryk

A tady je příkaz:

sed 'N; s/\n //'

Výsledek:

Tohle je moje kočka, jmenuje se Micina
Tohle je můj pes, jmenuje se Žeryk

Pro obecný případ připojování vícero následujících řádků s mezerami (a libovolného počtu) na začátku je potřeba použít složitější konstrukci jako:[pozn. 1]

sed ':a; N; s/\n  */ /; ta; P; D'

Kde

  • :a : nastaví značku a
  • N : přečte další řádek
  • s : nahrazení
  • t : podmíněný skok na značku
  • P : vytiskne další řádek, který je zpracován
  • D : jej smaže, takže není vytištěn dvakrát

Poznámky

editovat
  1. U starších/ne-GNU implementací je potřeba respektovat nemožnost zakončení značky středníkem, také jiné chování N pro poslední řádek, takže příkaz by vypadal: sed -e ':a' -e '$!N; s/\n */ /; ta' -e 'P; D'.[1]

Reference

editovat
  1. sed, a stream editor [online]. GNU [cit. 2021-12-30]. Kapitola 7.1 Joining lines. Dostupné online. 

Literatura

editovat

Externí odkazy

editovat