Křížová validace

Křížová validace je metoda zjišťování, jak moc bude model statistické analýzy ovlivňovat nezávislé vzorky dat. Tento postup je významný pro predikci neznámých vzorků po předchozí klasifikaci známých vzorků.

Princip křížové validace

Vstupní množina dat je rozdělena na podmnožiny. Jedna podmnožina slouží jako testovací množina, zbylé podmnožiny slouží jako trénovací množiny. Klasifikátor natrénuje model na trénovací množině a pomocí testovací množiny testuje přesnost a výkonnost tohoto modelu. Tento proces se několikrát opakuje, pokaždé s jinou podmnožinou tvořící trénovací a testovací množinu.

Použití při aproximaci polynomem

Z hodnot trénovací množiny se musí vytvořit funkce. Aby se tato funkce dala najít, je potřeba použít některou regresní metodu pro aproximaci funkce polynomem z bodů získaných z hodnot trénovací sady. Výstupem trénovacího procesu je vektor regresních koeficientů tohoto polynomu. Poté se měří odchylka hodnot testovací sady od polynomu. Opakováním procesu se získá soubor odchylek, které se zprůměrují a jejich výsledkem je celková cross-validační chyba modelu.

Chyba validace

Malé množství vstupních dat nebo velké množství parametrů těchto dat způsobují tzv. přefitování polynomu. Zkreslení polynomu oproti skutečné funkci závisí na stupni polynomu, přičemž obecně neplatí, že čím vyšší je stupeň polynomu, tím lepší odhad funkce. Je proto nutné vybrat takový stupeň polynomu, kterému odpovídá nejmenší cross-validační chyba.

Speciální typy validací

Pro k-fold validaci se vstupní množina dat rozdělí na k podmnožin a proces se k-krát opakuje. Limitní případ, kdy k je rovno počtu vzorků-1 se nazývá leave-one-out.

Externí odkazy

Obrázky, zvuky či videa k tématu Křížová validace na Wikimedia Commons
Výběr modelu pomocí metody cross-validation