Klasifikace (umělá inteligence): Porovnání verzí
Smazaný obsah Přidaný obsah
→Druhy: oprava terminologie, pridani krizovych odkazu značka: editace z Vizuálního editoru |
m typografické úpravy |
||
Řádek 1:
'''Klasifikace''' je ve [[strojové učení|strojovém učení]] a [[statistika|statistice]] druh problému, kde je cílem zařadit nový vzorek do jedné nebo více kategorií na základě množiny trénovacích dat, která obsahuje vzorky, jejichž kategorie je známa. K tomu máme k dispozici [[trénovací množina|trénovací množinu]] obsahující pozorování (data, instance), pro která jsou kategorie správně určeny. Jednotlivá pozorování jsou analyzována do množiny kvantifikovatelných vlastností, známých jako [[nezávislá proměnná|nezávislé proměnné]], rysy, fíčury (features) apod. Tyto vlastnosti můžou být kategoriální (např. "A", "B", "AB" nebo "O" pro [[krevní skupina|krevní skupiny]]), [[ordinální data|ordinální]] (např. "velký", "střední" nebo "malý"), [[celočíselné]] (např. počet výskytů slova v emailu) anebo [[reálné]] (např. měření [[Krevní tlak|krevního tlaku]]). Některé algoritmy pracují pouze s diskrétními hodnotami a požadují, aby se celočíselná nebo reálná data ''diskretizovala'', tj. převedla se na kategorie obsahující podobná pozorování (např. "méně než 5", "mezi 5 a 10", "víc než 10"). Jako příklad problému klasifikace je přiřazení emailu do třídy "spam" nebo "ne-spam" anebo přiřazeni diagnozy danému pacientovi, podle jeho pozorovaných charakteristik (pohlaví, věk, krevní tlak, přítomnost nebo absence určitých symptomů,
Algoritmus, který implementuje klasifikaci, se nazývá [[klasifikátor]]. Tento termín se používá také pro [[funkce (matematika)|matematickou funkci]], která je implementována algoritmem, a zobrazuje vstupní data na třídy.
Řádek 15:
* nejjednodušší jsou lineární klasifikátory
* ale je i spousta dalších a lepších
* je to nutné vyhodnocovat: [[křivka ROC]],
* používá se
== Druhy ==
Řádek 34:
Pro binární klasifikaci se používají [[rozhodovací stromy]], [[perceptron]] v několika variantách, [[k-NN]] a další.
Pokročilé metody spočívají v kombinaci několika klasifikátorů. ([[náhodný les]]
Nejjednodušší klasifikátor je pro lineárně oddělitelné množiny pozitivních a negativních příkladů. Ale vstupní data typicky obsahují chyby neboli šum a pak tento jednoduchý přístup není použitelný.
Řádek 61:
Předzpracování může vybrat atributy v rámci [[výběr rysů|výběru rysů]] anebo může atributy přidat pomocí [[extrakce rysů]]. První přístup se typicky používá, pokud je atributů mnoho, či jsou závislé a nerelevantní. Druhý přístup se používá, pokud jsou jednotlivé atributy nevhodné pro další zpracování a potřebujeme jejich kombinace. Některé metody klasifikace totiž z principu nebo kvůli jednoduchosti zpracovávají atributy samostatně.
Další druh transformací jsou globální transformace. Číselná data v nějakém metrickém (pod)prostoru můžeme rotovat, natáhnout, centrovat
== Měření ==
|