Směrodatná odchylka

míra statistické variability

Směrodatná odchylka, značená řeckým písmenem σ, je v teorii pravděpodobnosti a statistice často používanou mírou statistické variability. Jedná se o odmocninu z rozptylu náhodné veličiny:

Příklad dvou populací hodnot se stejným aritmetickým průměrem a s rozdílnou směrodatnou odchylkou. Červená populace má průměr 100 a směrodatnou odchylku 10; modrá populace má průměr taktéž 100 a směrodatnou odchylku 50.

kde je náhodná veličina s konečným rozptylem a střední hodnotou . Směrodatná odchylka vypovídá o tom, nakolik se od sebe navzájem typicky liší jednotlivé případy v souboru zkoumaných hodnot. Je-li malá, jsou si prvky souboru většinou navzájem podobné, a naopak velká směrodatná odchylka signalizuje velké vzájemné odlišnosti. Na základě znalosti distribuční funkce rozdělení nebo pomocí Čebyševovy nerovnosti lze odhadovat, jak daleko jsou hodnoty náhodné veličiny typicky vzdálené od sebe navzájem nebo od střední hodnoty.

Častou úlohou matematické statistiky je odhad směrodatné odchylky náhodné veličiny s neznámým rozdělením naměřené na výběru populace. Tento odhad se pak nazývá výběrová směrodatná odchylka a označuje s. Výběrová směrodatná odchylka je charakteristikou proměnlivosti (variability) statistického souboru. Známe-li střední hodnotu jinak neznámého rozdělení naměřených dat, výběrová směrodatná odchylka se počítá jako kvadratický průměr odchylek hodnot znaku od střední hodnoty. V častějším případě, kdy střední hodnota rozdělení není známa a je odhadnuta aritmetickým průměrem, se používá vzorec

nebo jeho ekvivalenty (přičemž je počet měření, naměřené hodnoty a jejich aritmetický průměr).

Koncept směrodatné odchylky se často používá i při analýze výběrových odhadů: Směrodatná odchylka výběrové distribuce odhadované veličiny se nazývá směrodatná chyba a používá se pro stanovení konfidenčního intervalu této veličiny.

Směrodatná odchylka (podobně jako rozptyl, střední hodnota a jiné momenty) není definována obecně u všech náhodných veličin, například u Cauchyho rozdělení ji stanovit nemůžeme a její odhady na základě měření cauchyovsky rozdělené náhodné veličiny nebudou stabilní. To si lze představit tak, že směrodatná odchylka takové náhodně veličiny je nekonečně veliká.

Definice a výpočet

editovat

Směrodatná odchylka, značená řeckým písmenem σ, se obvykle definuje jako odmocnina z rozptylu náhodné veličiny  , tzn.

 ,

kde   označuje rozptyl náhodné veličiny  . Směrodatnou odchylku lze vypočítat pomocí střední hodnoty E(X) a případně i E(X²).

 

Výběrová směrodatná odchylka

editovat

Pro výpočet odhadu směrodatné odchylky na empiricky zjištěné řadě čísel (tento odhad se nazývá výběrová směrodatná odchylka a jedná se o odmocninu z výběrového rozptylu) lze použít následující postup:

Mějme soubor reálných čísel x1, …, xN. Aritmetický průměr souboru lze vypočítat jako:

 .

Potom výběrová směrodatná odchylka těchto dat může být vypočítána jako

 

Pro praktické výpočty se častěji používá ekvivalentní vzorec,

 

který nevyžaduje předběžný výpočet průměru. Druhý sčítanec pod odmocninou totiž lze počítat průběžně zároveň s výpočtem sumy čtverců xi během jediného programového cyklu procházejícího vstupní data. Pokud je N velké, redukuje se tím doba výpočtu zhruba na polovinu. Za určitých okolností však tato metoda zároveň může zvýšit vliv zaokrouhlovacích chyb na přesnost výsledku.

Vzdálenost pozorování od střední hodnoty

editovat
 
Graf normálního (Gaussova) rozdělení. Každý pruh v grafu reprezentuje jednotku směrodatné odchylky.
Související informace naleznete také v článku Pravidlo tří sigma.

Distribuční funkce náhodné veličiny udává, jak rychle ubývá výskyt pozorování, vzdálíme-li se určitý počet směrodatných odchylek od střední hodnoty. Například má-li náhodná veličina přibližně normální rozdělení, pak pravděpodobnost, že se její hodnota bude od střední hodnoty lišit nejvýše o jednu směrodatnou odchylku, je výrazně vyšší než 0,5 (za předpokladu přesně normálního rozdělení je to asi 68 %); pravděpodobnost, že se hodnota bude lišit nejvýše o dvě směrodatné odchylky, je při normálním rozdělení cca 95 %. Teoretické meze pravděpodobností pro libovolné neznámé rozdělení s definovanou a známou střední hodnotou a směrodatnou odchylkou udává Čebyševova nerovnost II. typu. Její odhady jsou však pro běžná rozdělení podobná normálnímu obvykle příliš konzervativní.

Variační koeficient

editovat

Variační koeficient   porovnává směrodatnou odchylku s průměrem

 

Je použitelný při porovnávání variability proměnných, které jsou v různých měrných jednotkách nebo mají různé typické hodnoty.

Související články

editovat

Externí odkazy

editovat