Klasifikace (umělá inteligence): Porovnání verzí
Smazaný obsah Přidaný obsah
→Algoritmy: ++ předzpracovaní |
typos, jazykové úpravy |
||
Řádek 1:
'''Klasifikace''' je ve [[strojové učení|strojovém učení]] a [[statistika|statistice]] druh problému, když máme určit, do které z [[kategoriální proměnná|kategorií]] dat dané [[pozorování]] patří. K tomu máme k dispozici [[trénovací množina|trénovací množinu]] obsahující pozorování (data, instance), pro která jsou kategorie správně určeny. Jednotlivá pozorování jsou analyzována do množiny kvantifikovatelných vlastností, známých jako [[nezávislá proměnná|nezávislé proměnné]], rysy, fíčury (features) apod. Tyto vlastnosti můžou být kategoriální (např. "A", "B", "AB" nebo "O" pro [[krevní skupina|krevní skupiny]], [[ordinální data|ordinální]] (např. "velký", "střední" nebo "malý"), [[celočíselné]] (např. počet výskytů slova v emailu) anebo [[reálné]] (např. měření [[Krevní tlak|krevního tlaku]]). Některé algoritmy pracují pouze s diskrétními hodnotami a požadují, aby se celočíselná nebo reálná data ''diskretizovaly'', tj. převedly na skupiny obsahující podobná
Algoritmus, který implementuje klasifikaci, se nazývá [[klasifikátor]]. Tento termín se používá také pro [[funkce (matematika)|matematickou funkci]], která je implementována algoritmem, a zobrazuje vstupní data na třídy.
Řádek 6:
V terminologii [[strojové učení|strojového učení]] je klasifikace považována za metodu [[učení s učitelem]], to jest učení, při kterém je známá trénovací množina správně klasifikovaných příkladů. Analogická metoda v [[učení bez učitele]] je známá jako [[Shluková analýza|klastrování]] a spočívá ve spojování dat do kategorií podle nějaké míry vnitřní [[podobnost (obecný pojem)|podobnosti]] (např. odvozené ze [[vzdálenost]]i mezi instancemi, které jsou považovány za vektory ve vícedimenzionálním [[vektorový prostor|vektorovém prostoru]].
Terminologie není jednotná a liší
==Přehled==
Řádek 41:
Celkové schéma přístupu je, že se nejdříve naučí (''natrénuje'') klasifikátor na základě trénovacích dat. Hotový klasifikátor se pak používá pro klasifikaci nových dat.
=== Vstupní data ===
Řádek 53:
V úvodu. A taky strukturované a hierarchické, případně matadata.
=== Předzpracování dat===
Surová data
Předzpracování může identifikovat a vypustit outliery, doplnit chybějící
Další předzpracování může vybrat podmnožinu dat, pokud je [[dataset]] velký. Kromě doočíbijícího náhodného výběru můžeme chtít vybrat příklady typické nebo je pokrýt reprezentativně, což může znamenat například zachování poměru tříd nebo zachování zajímavých příkladů.
Řádek 62:
Předzpracování může vybrat atributy v rámci [[výběr rysů|výběru rysů]] anebo může atributy přidat pomocí [[extrakce rysů]]. První přístup se typicky používá, pokud je atributů mnoho, či jsou závislé a nerelevantní. Druhý přístup se používá, pokud jsou jednotlivé atrubuty nevhodné pro další zpracování a potřebujeme jejich kombinace. Některé metody klasifikace totiž z principu nebo kvůli jednoduchosti zpracovávají atributy samostatně.
Další druh transformací jsou globální transformace. Číselná data v nějakém metrickém (pod)prostoru můžeme
== Měření ==
Je známo mnoho měr kvality klasifikátoru. Už byla
Obecně, různé chyby můžou mít různou cenu. Pro binární klasifikátory cena chyby pro [[falešná pozitiva]] a [[falešná negativa]] ([[Chyby typu I a II|nazývaných taky]] ''chyba prvního druhu'' a ''chyba druhého druhu'') může být různá. Pro obecné třídy cena chyby může být odvozena z podobnosti tříd.
|