Zavádějící proměnná

Proměnná ovlivňující proměnnou nezávislou a závislou, a tak vytvářející korelaci, kterou nelze vysvětlit jednoduchým příčinným vztahem
(přesměrováno z Matoucí proměnná)

Ve statistice zavádějící proměnná (také matoucí proměnná nebo zavádějící faktor, anglicky confounding variable) je proměnná z(t), která ovlivňuje jak nezávislou proměnnou x(t), tak závislou proměnnou y(t), a tím vytváří korelaci mezi proměnnými x(t) a y(t), kterou může naivní analýza označit za důkaz příčinného vztahu mezi x(t) a y(t) (tj. vést k chybnému závěru, že x(t) ovlivňuje y(t), nebo naopak). Tato hypotetická příčinná vazba je ovšem falešná a skutečné vysvětlení korelace spočívá v existenci zavádějící proměnné z(t), jejíž změna je příčinou změn jak x(t), tak y(t).

Ilustrace jednoduché zavádějící proměnné. Jinými slovy, Z je příčinou X i Y.

Jinak řečeno, existence zavádějících proměnných je matematické vyjádření faktu, že korelace neimplikuje kauzalitu. Detailní rozbor možných zavádějících proměnných a jejich vlivu na pozorované korelace je důležitý pro získání věrohodných závěrů o příčinných vztazích (například závěrů typu „lék A pomáhá pacientům se symptomy B“), protože existence korelací je prakticky jediným způsobem, jak se dovtípit skutečných příčinných vztahů, ale příliš jednoduché uvažování postavené na empirických datech je často naivní a jeho závěry jsou často chybné.

Příklad

editovat

Pokud žáci různých tříd základní školy dostanou stejný test, bude úspěšnost kladně korelovat s jejich tělesnou hmotností. Bez porozumění toho, že "korelace neimplikuje kauzalitu", by to někdo mohl označit za důkaz, že obezita způsobuje dobré studijní výsledky. Ve skutečnosti však vyšší hmotnost i vyšší úspěšnost silně koreluje s věkem (který je příčinou obojího).

To byl křiklavý příklad; v reálných situacích může být obtížnější tuto klamnou "zdánlivou kauzalitu" odhalit. Např. během covidové pandemie v mnoha nemocnicích převládali pacienti s covidem-19, kteří byli očkovaní, a jejich procento dokonce často převyšovalo procento očkovaných v celé populaci.

Naivní závěr je, že očkování zvyšuje pravděpodobnost hospitalizace. V tomto případě ovšem tento závěr je chybný a skutečné hlavní vysvětlení se odvíjí od zavádějící proměnné „věk“, která je korelována jak s pravděpodobností očkování, tak s pravděpodobností hospitalizace. Starší lidé mají vyšší riziko hospitalizace; zároveň měli vyšší pravděpodobnost, že už byli očkováni, a proto množina lidí, kteří jsou zároveň staří a očkovaní, hraje rozhodující úlohu pro rozdělení hospitalizovaných na podskupiny. Alespoň částečná účinnost očkování plyne z faktu, že procento očkovaných mezi hospitalizovanými je nižší než procento očkovaných v nejstarších věkových skupinách, které nejvíce přispívají k počtům pacientů v nemocnicích.