Logistická regrese: Porovnání verzí

Odebráno 14 bajtů ,  před 14 lety
odstranění vodorovných čar + pahýl na konec + zvýraznění názvu článku
(odstranění vodorovných čar + pahýl na konec + zvýraznění názvu článku)
'''Logistická [[regrese]]''' je označení metody [[matematická statistika|matematické statistiky]]
----
{{matematický pahýl}}
 
Logistická [[regrese]] je označení metody [[matematická statistika|matematické statistiky]]
zabývající se problematikou odhadu [[pravděpodobnost|pravděpodobnosti]] nějakého jevu ([[závisle proměnná|závisle proměnné]]) na základě určitých známých skutečností ([[nezávisle proměnná|nezávisle proměnných]]), které mohou ovlivnit výskyt jevu.
Událost, zda zkoumaný jev nastal, se modeluje pomocí [[náhodná veličina|náhodné veličiny]], která nabývá hodnoty 0, pokud jev nenastal, nebo 1, pokud jev nastal (viz též [[charakteristická funkce]]). O náhodné veličině, která nabývá dvou hodnot 0 a 1 se říká, že má [[alternativní rozdělení]]. Metoda logistické regrese předpokládá, že za podmínek, které určuje [[vektor]] <math>\mathbf{x}</math>, bude náhodná veličina <math>Y(\mathbf{x})</math> rovna 1 s pravděpodobností, jejíž závislost na <math>\mathbf{x}</math> můžeme vyjádřit pomocí tzv. [[logistická funkce|logistické funkce]], což zapisujeme jako <math>\operatorname{P}[Y(\mathbf{x})=1]=\frac{\exp (\boldsymbol{\beta}'\mathbf{x})}{1+\exp(\boldsymbol{\beta}'\mathbf{x})}.</math> Vektor <math>\boldsymbol{\beta}</math> je vektorem neznámých parametrů. Odhadem vektoru <math>\boldsymbol{\beta}</math> se tedy odhaduje i hledaná pravděpodobnost výskytu zkoumaného jevu (za předpokladu parametrizace logistickou funkcí). Vektor <math>\mathbf{x}</math> se obvykle bere ve tvaru <math>(1,\mathbf{z}')'</math>. Složka <math>\beta_0</math> pak určuje vliv tzv. absolutního členu. Skutečnost, že pravděpodobnost výskytu jevu nezávisí na námi zkoumaných nezávislých proměnných (tj. <math>\beta_1=0,\dots,\beta_k=0\,</math>) znamená, že se dá vyjádřit ve tvaru
 
== Příklady ==
 
# ''Výskyt onemocnění.'' Zkoumá se jev výskytu určitého onemocnění. Nechť <math>z</math> bude určovat, zda zkoumaný jedinec je muž nebo žena. <math>z</math> je rovno 0, pokud jedinec je muž, nebo 1, pokud jedinec je žena. Za vektor <math>\mathbf{x}</math> se vezme vektor <math>(1,z)'</math>. Obecný vzorec potom přechází do tvaru :<math>\operatorname{P}[Y(z)=1]=\frac{\exp(\beta_0 + \beta_1 \cdot z)}{1+\exp(\beta_0+\beta_1 \cdot z)}.</math> Pokud je parametr <math>\beta_1</math> nulový, znamená to, že výskyt onemocnění nezávisí na pohlaví a pravděpodobnost výskytu onemocnění je rovna <math>\frac{\exp(\beta_0)}{1+\exp(\beta_0)}.</math> V případě, že <math>\beta_1</math> je kladné, znamená to, že výskyt nemoci je pravděpodobnější pro ženy než pro muže. Pokud je <math>\beta_1</math> záporné, znamená to, že výskyt nemoci je pravděpodobnější pro muže. Absolutní velikost <math>\beta_1</math> potom určuje, kolikrát je pravděpodobnost onemocnění pro muže resp. pro ženu větší.
# ''Sázková kancelář.'' Odhaduje se vítězství hráče v tenisovém utkání. Vektor <math>\mathbf{z}</math> je kvantifikace známých skutečností, které mohou ovlivnit výsledek utkání. Například údaje posledních utkání hráčů, postavení v tenisovém žebříčku, datum posledního utkání atp. Vektor <math>\mathbf{x}</math> se potom bere jako <math>(1,\mathbf{z}')'</math> podobně jako v předchozím příkladě. Kladné složky vektoru <math>\boldsymbol\beta</math> pak určují ty charakteristiky, které mají kladný vliv na vítězství hráče, záporné pak mají kladný vliv na vítězství soupeře.
 
== Důležité úlohy v modelu logistické regrese ==
 
* [[Odhad parametrů]] modelu. Provádí se obvykle [[metoda maximální věrohodnosti|metodou maximální věrohodnosti]].
* [[Testování hypotéz]] o parametrech modelu. Obvykle na základě [[test poměrem věrohodností|testu poměrem věrododností]] se testují zejména hypotézy o vlivu konkrétní nezávisle proměnné nebo podvektoru nezávisle proměnných na pravděpodobnost výskytu zkoumaného jevu.
 
== Související pojmy ==
 
* ''Odds'' (šance, riziko) udává podíl pravděpodobnosti výskytu jevu ku pravděpodobosti jeho nevýskytu.
* ''Log odds'' je [[přirozený logaritmus]] odds. V modelu logistické regrese je log odds rovno <math>\boldsymbol{\beta}'\mathbf{x}</math>. V teorii řízení kreditních rizik se tato hodnota někdy nazývá skóre.
 
== Související články ==
 
* [[Giniho koeficient]]
* [[Lorenzova křivka]]
* [[Neuronové sítě]]
* [[Regresní stromy]]
 
* [[Regrese]]
* [[Matematická statistika]]
 
==[[ Reference]] ==
 
* Agresti, Alan, ''Categorical Data Analysis'', 2nd ed., New York: Wiley-Interscience, 2002, ISBN 0-471-36093-7.
* Hosmer, David W. and Stanley Lemeshow, ''Applied Logistic Regression'', 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8.
== Externí odkazy==
[http://sreview.soc.cas.cz/upl/archiv/files/372_475REHAK.pdf Nebojte se logistické regrese]
{{matematický pahýl}}
 
[[Kategorie:Statistika]]
 
----
 
[[de:Logistische Regression]]