Multiple Imputation

Chybějící hodnoty v analyzovaných datech mohou způsobovat velmi zásadní zkreslení výsledků a následně tak zapříčinit chybné rozhodnutí. K řešení tohoto problému není příliš vhodné použít tzv. ad-hoc přístupy. Proto byly vyvinuty metodiky pro práci s chybějícími daty, jako například multiple imputation, která může být použita v mnoha odvětvích výzkumu (biomedicíně, sociálnímu výzkumu, atd.).

Menší nevýhodou metody MI je, že vyžaduje interakci s uživatelem, protože po vytvoření zvoleného počtu datových souborů se nad nimi provádí analýza, kterou uživatel musí předem stanovit.

Princip

Grafické znázornění postupu metody multiple imputation

Metodu Multiple Imputation (MI) lze realizovat velmi intuitivním postupem. K jejímu provedení stačí pouze zdravý úsudek a znalost základních regresních metod. Jak lze odvodit z obrázku, postup metody je realizován ve třech krocích. Nejdříve vytvoříme jednotlivé datové soubory, v dalším kroku nad nimi provedeme analýzu a závěrem se jednotlivé výsledky analýz zkombinují.

Vytváření hodnot

Velmi důležitou částí metody je doplnění chybějících dat. Tato data musí být doplněna podle správného modelu, který odpovídá vztahům v datovém souboru. Je důležité soustředit pozornost na výběr správných dostupných dat, která se podílejí na vytvoření modelu, aby doplněná hodnota co nejlépe odpovídala skutečnosti. Výpočetní model může být reprezentován například pomocí regresní přímky, která vytváří vždy odlišnou hodnotu pro jiná vstupní data. Regresní přímku můžeme vytvořit například pomocí metody nejmenších čtverců. Stále je zde však problém určité nereálnosti doplňovaných dat, protože pro stejný vstup vždy dostanete stejnou výslednou hodnotu, což neodpovídá skutečnosti. Proto k rovnici přímky doplníme směrodatnou odchylku směrnice. Ta nám zajistí určitou náhodnost výsledných doplněných dat.

Postup metody MI

Než přistoupíme k prvnímu kroku metody, musí být určeno kolik různých datových souborů budeme vytvářet neboli kolik různých hodnot se pro každá chybějící data bude počítat. Počet datových souborů $m$ je vhodné volit mezi intervalem 3 až 10 [1]. Po určení hodnoty $m$ bychom měli také vytvořit stejný počet výpočetních modelů pro neznáme hodnoty.

První krok

První krok spočívá ve vytvoření datových souborů a na každý použijeme jiný datový model. Vytvořením několika “uvěřitelných” datových souborů nám později umožní pomocí průměru vytvořit lepší odhad o chybějících datech. Je tedy vytvořeno m datových souborů, $Y^{l}=\{{Y^{l}}_{m}is,Y_{obs}\},l=1,...,m,$ kde Yobs jsou dostupná data a ${Y^{l}}_{m}is$ představuje $l$ výpočtů $Y_{mis}$ chybějících dat.

Druhý krok

V druhém kroku se provádí analýza dat. Analýza je aplikována na každý datový soubor jednotlivě, jako kdyby se jednalo o reálná data. Pod pojmem analýza si lze představit jakoukoliv analýzu, kterou máme v úmyslu nad daty provádět (např. výpočet průměru, regrese, ...). Výsledkem z druhého kroku bude odhad analýzy $Q=Q(Y^{l})$ a její odchylky $U=U(Y^{l}),l=1,...,m$ .

Třetí krok

V posledním (třetím) kroku se kombinují všechny provedené analýzy do celkového odhadu průměrováním:

{\bar {Q}}={\frac {1}{m}}\sum _{i=1}^{m}Q_{i}

.

Celková odchylka $T$ odhadu se skládá ze dvou částí z průměru všech odchylek

{\bar {U}}={\frac {1}{m}}\sum _{i=1}^{m}U_{i}

a z odchylky mezi jednotlivými odhady datových souborů

B={\frac {1}{m-1}}\sum _{i=1}^{m}(Q_{i}-{\bar {Q}})^{2}

,

která reflektuje chybu v ${\bar {Q}}$ .

T={\bar {U}}+(1+m^{-1})B

Odmocnina z $T$ , pak představuje standardní odchylku odhadu z $Q$ . Pokud by žádná data nechyběla, pak by $Q_{1},Q_{2},...,Q_{m}$ byla identická, $B$ se rovnalo nule a $T$ by bylo $U$ . Poměr hodnot $B$ ku $U$ reprezentuje, jak velké množství informace je obsaženo v chybějící části dat v poměru k datům dostupným. ^[1] ^[2]

Reference

↑ Multiple imputation for multivariate missing-data problems : a data analyst's perspective [online]. 1999-03-12 [cit. 2012-08-28]. Dostupné online. (anglicky) ^{[nedostupný zdroj]}
↑ Multiple Imputation For Missing Data : What Is It And How Can I Use It? [online]. 2003 [cit. 2012-08-28]. Dostupné v archivu pořízeném dne 2012-09-07. (anglicky)

Související články

[1] Multiple imputation for multivariate missing-data problems : a data analyst's perspective [online]. 1999-03-12 [cit. 2012-08-28]. Dostupné online. (anglicky) ^{[nedostupný zdroj]}

[2] Multiple Imputation For Missing Data : What Is It And How Can I Use It? [online]. 2003 [cit. 2012-08-28]. Dostupné v archivu pořízeném dne 2012-09-07. (anglicky)

[1]

[2]