Trénovací data

data pro strojové učení

Trénovací data jsou data (v konkrétní počítačové podobě například databáze nebo adresář se soubory), na kterých se v umělé inteligenci nebo strojovém učení odhadují parametry a/nebo struktura modelu. Trénovací data skládají ze vstupního vektoru (množiny) dat a v případě učení s učitelem také odpovídajícího vstupního vektoru dat.

Pro správné naučení inteligentního systému je obvykle potřeba dostatečně reprezentativní množství trénovacích dat. Inteligentní systémy jsou v podstatě funkce, které ze vstupního vektoru vypočítají výstupní vektor a podle rozdílu od správného výstupního vektoru upraví své vnitřní parametry. Tento proces (učení s učitelem[1]) se opakuje, dokud není systém dostatečně naučen. Trénovací data se dle způsobu užití dělí do tří skupin:

Trénovací množina je sada dat, ve které algoritmus nachází určitý vztah, tj. provádí jejich (regresní analýzu), čímž se 'učí'.

Validační množina je sada dat, která se používají pro případnou úpravu parametrů učení ve snaze vyhnout se jeho 'přeučení'.

Testovací množina je sada dat, která se používají pro ověření kvality naučeného systému. Měla by být odlišná od trénovací resp. validační množiny. Systém je správně naučený tehdy, jestliže se shodnou úspěšností vyhodnocuje trénovací množinu i testovací množinu. Pokud má vyhodnocení trénovací množiny výrazně vyšší úspěšnost, je systém přeučený.

Provnejte s učením bez učitele[2].

ReferenceEditovat

  1. GENTLEMAN, R.; CAREY, V. J. Supervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 16 s. ISBN 978-0-387-77239-4. (anglicky) 
  2. GENTLEMAN, R.; CAREY, V. J. Unsupervised Machine Learning. Bioconductor Case Studies. New York: Springer, 2008. 21 s. ISBN 978-0-387-77239-4. (anglicky) 

LiteraturaEditovat