Klasifikace (umělá inteligence): Porovnání verzí

Smazaný obsah Přidaný obsah
Smuto (diskuse | příspěvky)
→‎Druhy: oprava terminologie, pridani krizovych odkazu
m typografické úpravy
Řádek 1:
'''Klasifikace''' je ve [[strojové učení|strojovém učení]] a [[statistika|statistice]] druh problému, kde je cílem zařadit nový vzorek do jedné nebo více kategorií na základě množiny trénovacích dat, která obsahuje vzorky, jejichž kategorie je známa. K tomu máme k dispozici [[trénovací množina|trénovací množinu]] obsahující pozorování (data, instance), pro která jsou kategorie správně určeny. Jednotlivá pozorování jsou analyzována do množiny kvantifikovatelných vlastností, známých jako [[nezávislá proměnná|nezávislé proměnné]], rysy, fíčury (features) apod. Tyto vlastnosti můžou být kategoriální (např. "A", "B", "AB" nebo "O" pro [[krevní skupina|krevní skupiny]]), [[ordinální data|ordinální]] (např. "velký", "střední" nebo "malý"), [[celočíselné]] (např. počet výskytů slova v emailu) anebo [[reálné]] (např. měření [[Krevní tlak|krevního tlaku]]). Některé algoritmy pracují pouze s diskrétními hodnotami a požadují, aby se celočíselná nebo reálná data ''diskretizovala'', tj. převedla se na kategorie obsahující podobná pozorování (např. "méně než 5", "mezi 5 a 10", "víc než 10"). Jako příklad problému klasifikace je přiřazení emailu do třídy "spam" nebo "ne-spam" anebo přiřazeni diagnozy danému pacientovi, podle jeho pozorovaných charakteristik (pohlaví, věk, krevní tlak, přítomnost nebo absence určitých symptomů, ...)
 
Algoritmus, který implementuje klasifikaci, se nazývá [[klasifikátor]]. Tento termín se používá také pro [[funkce (matematika)|matematickou funkci]], která je implementována algoritmem, a zobrazuje vstupní data na třídy.
Řádek 15:
* nejjednodušší jsou lineární klasifikátory
* ale je i spousta dalších a lepších
* je to nutné vyhodnocovat: [[křivka ROC]], ...
* používá se ...
 
== Druhy ==
Řádek 34:
Pro binární klasifikaci se používají [[rozhodovací stromy]], [[perceptron]] v několika variantách, [[k-NN]] a další.
 
Pokročilé metody spočívají v kombinaci několika klasifikátorů. ([[náhodný les]] ...)
 
Nejjednodušší klasifikátor je pro lineárně oddělitelné množiny pozitivních a negativních příkladů. Ale vstupní data typicky obsahují chyby neboli šum a pak tento jednoduchý přístup není použitelný.
Řádek 61:
Předzpracování může vybrat atributy v rámci [[výběr rysů|výběru rysů]] anebo může atributy přidat pomocí [[extrakce rysů]]. První přístup se typicky používá, pokud je atributů mnoho, či jsou závislé a nerelevantní. Druhý přístup se používá, pokud jsou jednotlivé atributy nevhodné pro další zpracování a potřebujeme jejich kombinace. Některé metody klasifikace totiž z principu nebo kvůli jednoduchosti zpracovávají atributy samostatně.
 
Další druh transformací jsou globální transformace. Číselná data v nějakém metrickém (pod)prostoru můžeme rotovat, natáhnout, centrovat ... Používané techniky jsou [[latentní sémantické indexování]] (LSI), [[analýza hlavních komponent]] (PCA) a další. Například pro klasifikaci pomocí [[support vector machines]] (SVM) se doporučuje atributy standardizovat, aby měly střední hodnotu 0 a standardní odchylku 1.
 
== Měření ==