Logistická regrese: Porovnání verzí

Přidáno 16 bajtů ,  před 3 lety
m
Robot: přidáno {{Autoritní data}}; kosmetické úpravy
m (narovnání přesměrování)
m (Robot: přidáno {{Autoritní data}}; kosmetické úpravy)
'''Logistická [[regrese]]''' je označení metody [[matematická statistika|matematické statistiky]]
zabývající se problematikou odhadu [[pravděpodobnost]]i nějakého jevu ([[závisle proměnná|závisle proměnné]]) na základě určitých známých skutečností ([[Proměnná|nezávisle proměnných]]), které mohou ovlivnit výskyt jevu.
Událost, zda zkoumaný jev nastal, se modeluje pomocí [[náhodná veličina|náhodné veličiny]], která nabývá hodnoty 0, pokud jev nenastal, nebo 1, pokud jev nastal (viz též [[charakteristická funkce]]). O náhodné veličině, která nabývá dvou hodnot 0 a 1 se říká, že má [[alternativní rozdělení]]. Metoda logistické regrese předpokládá, že za podmínek, které určuje [[vektor]] <math>\mathbf{x}</math>, bude náhodná veličina <math>Y(\mathbf{x})</math> rovna 1 s pravděpodobností, jejíž závislost na <math>\mathbf{x}</math> můžeme vyjádřit pomocí tzv. [[logistická funkce|logistické funkce]], což zapisujeme jako <math>\operatorname{P}[Y(\mathbf{x})=1]=\frac{\exp (\boldsymbol{\beta}'\mathbf{x})}{1+\exp(\boldsymbol{\beta}'\mathbf{x})}.</math> Vektor <math>\boldsymbol{\beta}</math> je vektorem neznámých parametrů. Odhadem vektoru <math>\boldsymbol{\beta}</math> se tedy odhaduje i hledaná pravděpodobnost výskytu zkoumaného jevu (za předpokladu parametrizace logistickou funkcí). Vektor <math>\mathbf{x}</math> se obvykle bere ve tvaru <math>(1,\mathbf{z}')'</math>. Složka <math>\beta_0</math> pak určuje vliv tzv. absolutního členu. Skutečnost, že pravděpodobnost výskytu jevu nezávisí na námi zkoumaných nezávislých proměnných (tj. <math>\beta_1=0,\dots,\beta_k=0\,</math>) znamená, že se dá vyjádřit ve tvaru
:<math>\operatorname{P}[Y(\mathbf{x})=1]=\operatorname{P}[Y(1,\mathbf{z}')')=1]=\frac{\exp(\beta_0)}{1+\exp(\beta_0)}</math> nezávisle na <math>\mathbf{z}</math>.
 
== Příklady ==
# ''Výskyt onemocnění.'' Zkoumá se jev výskytu určitého onemocnění. Nechť <math>z</math> bude určovat, zda zkoumaný jedinec je muž nebo žena. <math>z</math> je rovno 0, pokud jedinec je muž, nebo 1, pokud jedinec je žena. Za vektor <math>\mathbf{x}</math> se vezme vektor <math>(1,z)'</math>. Obecný vzorec potom přechází do tvaru :<math>\operatorname{P}[Y(z)=1]=\frac{\exp(\beta_0 + \beta_1 \cdot z)}{1+\exp(\beta_0+\beta_1 \cdot z)}.</math> Pokud je parametr <math>\beta_1</math> nulový, znamená to, že výskyt onemocnění nezávisí na pohlaví a pravděpodobnost výskytu onemocnění je rovna <math>\frac{\exp(\beta_0)}{1+\exp(\beta_0)}.</math> V případě, že <math>\beta_1</math> je kladné, znamená to, že výskyt nemoci je pravděpodobnější pro ženy než pro muže. Pokud je <math>\beta_1</math> záporné, znamená to, že výskyt nemoci je pravděpodobnější pro muže. Absolutní velikost <math>\beta_1</math> potom určuje, kolikrát je pravděpodobnost onemocnění pro muže resp. pro ženu větší.
# ''Sázková kancelář.'' Odhaduje se vítězství hráče v tenisovém utkání. Vektor <math>\mathbf{z}</math> je kvantifikace známých skutečností, které mohou ovlivnit výsledek utkání. Například údaje posledních utkání hráčů, postavení v tenisovém žebříčku, datum posledního utkání atp. Vektor <math>\mathbf{x}</math> se potom bere jako <math>(1,\mathbf{z}')'</math> podobně jako v předchozím příkladě. Kladné složky vektoru <math>\boldsymbol\beta</math> pak určují ty charakteristiky, které mají kladný vliv na vítězství hráče, záporné pak mají kladný vliv na vítězství soupeře.
# ''[[Kreditní riziko]].'' Odhaduje se pravděpodobnost nesplacení (defaultu) klienta, kterému banka půjčí peníze na [[úvěr]]. Vektor <math>\mathbf{z}</math> vyjadřuje vlastnosti klienta banky v okamžiku žádosti o úvěr. Podobně jako v předchozích příkladech kladné složky vektoru <math>\boldsymbol{\beta}</math> určují charakteristiky, které mají pozitivní vliv na nesplacení úvěru. Složky vektoru, které jsou nulové, nemají na pravděpodobnost nesplacení klienta žádný vliv. V [[bankovnictví]] a [[řízení rizik]] se modely založené na logistické regresi často zahrnují pod pojem [[skóring]] nebo [[skóringové funkce]].
 
{{Pahýl}}
{{Portály|Matematika}}
{{Autoritní data}}
 
[[Kategorie:Statistika]]
1 429 567

editací