Trénovací data

data pro strojové učení

Trénovací data (trénovací množina) je v oblasti strojového učení sada dat, ve které algoritmus nachází určitý vztah, čímž se 'učí'.

V umělé inteligenci nebo strojovém učení se trénovací data skládají ze vstupního vektoru dat a odpovídajícího výstupu, při použití učení s učitelem se z nich vytváří znalostní databáze. Pro správné naučení inteligentního systému je obvykle potřeba velké množství trénovacích dat. Počet dat by měl být mnohem větší než počet klasifikátorů vstupního vektoru.

Testovací data se používají pro ověření kvality naučeného systému. Měla by být odlišná od trénovacích dat. Systém je správně naučený tehdy, jestliže se shodnou úspěšností vyhodnocuje trénovací data i testovací data. Pokud má vyhodnocení trénovací množiny výrazně vyšší úspěšnost, je systém přeučený.

Validační data se používají pro úpravu parametrů systému ve snaze vyhnout se jeho přeučení. Používají se mezi procesem učení a testování.

Regresní analýza byla jedna z prvních metod využívající trénovací data pro nalezení vztahu a následného předpovídání dalšího vývoje dat. V inteligentních systémech tvoří trénovací a testovací data klíčovou součást. Inteligentní systémy jsou v podstatě funkce, které ze vstupního vektoru vypočítají výstupní hodnotu a podle rozdílu od správného výstupu upraví své vnitřní parametry. Tento proces se opakuje, dokud není systém dostatečně naučen.

OdkazyEditovat

ReferenceEditovat

V tomto článku byl použit překlad textu z článku Test set na anglické Wikipedii.