Klasifikace (umělá inteligence): Porovnání verzí

Smazaný obsah Přidaný obsah
→‎Algoritmy: ++ předzpracovaní
OndraVozar (diskuse | příspěvky)
typos, jazykové úpravy
Řádek 1:
 
'''Klasifikace''' je ve [[strojové učení|strojovém učení]] a [[statistika|statistice]] druh problému, když máme určit, do které z [[kategoriální proměnná|kategorií]] dat dané [[pozorování]] patří. K tomu máme k dispozici [[trénovací množina|trénovací množinu]] obsahující pozorování (data, instance), pro která jsou kategorie správně určeny. Jednotlivá pozorování jsou analyzována do množiny kvantifikovatelných vlastností, známých jako [[nezávislá proměnná|nezávislé proměnné]], rysy, fíčury (features) apod. Tyto vlastnosti můžou být kategoriální (např. "A", "B", "AB" nebo "O" pro [[krevní skupina|krevní skupiny]], [[ordinální data|ordinální]] (např. "velký", "střední" nebo "malý"), [[celočíselné]] (např. počet výskytů slova v emailu) anebo [[reálné]] (např. měření [[Krevní tlak|krevního tlaku]]). Některé algoritmy pracují pouze s diskrétními hodnotami a požadují, aby se celočíselná nebo reálná data ''diskretizovaly'', tj. převedly na skupiny obsahující podobná měřenípozorování (např. "méně než 5", "mezi 5 a 10", "víc než 10"). PříkladJako příklad problému je přiřazení emailu do třídy "spam" nebo "ne-spam" anebo přiřazeni diagnozy danému pacientovi, podle toho, jak je popsán svýmijeho pozorovanýmipozorovaných charakteristikamicharakteristik (pohlavímpohlaví, věk, krevní tlak, přítomnost nebo absence určitých symptomů, ...)
 
Algoritmus, který implementuje klasifikaci, se nazývá [[klasifikátor]]. Tento termín se používá také pro [[funkce (matematika)|matematickou funkci]], která je implementována algoritmem, a zobrazuje vstupní data na třídy.
Řádek 6:
V terminologii [[strojové učení|strojového učení]] je klasifikace považována za metodu [[učení s učitelem]], to jest učení, při kterém je známá trénovací množina správně klasifikovaných příkladů. Analogická metoda v [[učení bez učitele]] je známá jako [[Shluková analýza|klastrování]] a spočívá ve spojování dat do kategorií podle nějaké míry vnitřní [[podobnost (obecný pojem)|podobnosti]] (např. odvozené ze [[vzdálenost]]i mezi instancemi, které jsou považovány za vektory ve vícedimenzionálním [[vektorový prostor|vektorovém prostoru]].
 
Terminologie není jednotná a liší sev mezi statistikoustatistice a strojovýmstrojovém učením, případně v různých aplikačních oblastech.
 
==Přehled==
Řádek 41:
Celkové schéma přístupu je, že se nejdříve naučí (''natrénuje'') klasifikátor na základě trénovacích dat. Hotový klasifikátor se pak používá pro klasifikaci nových dat.
 
NepříjemnostiKomplikace vyžadující speciální přístup a algorimty jsou, když je příkladů mnoho (miliony) nebo naopak málo nebo když je rysů mnoho, případně jsou závislé.
 
=== Vstupní data ===
Řádek 53:
V úvodu. A taky strukturované a hierarchické, případně matadata.
 
=== Předzpracování dat===
Surová data vyhrabanázískaná z databází není vhodné použít přímo.
 
Předzpracování může identifikovat a vypustit outliery, doplnit chybějící hodnotxhodnoty, sjendnotitsjednotit zápis a formu příkladů (například kalendářní data jsou různorodérůznorodá) a pod.
 
Další předzpracování může vybrat podmnožinu dat, pokud je [[dataset]] velký. Kromě doočíbijícího náhodného výběru můžeme chtít vybrat příklady typické nebo je pokrýt reprezentativně, což může znamenat například zachování poměru tříd nebo zachování zajímavých příkladů.
Řádek 62:
Předzpracování může vybrat atributy v rámci [[výběr rysů|výběru rysů]] anebo může atributy přidat pomocí [[extrakce rysů]]. První přístup se typicky používá, pokud je atributů mnoho, či jsou závislé a nerelevantní. Druhý přístup se používá, pokud jsou jednotlivé atrubuty nevhodné pro další zpracování a potřebujeme jejich kombinace. Některé metody klasifikace totiž z principu nebo kvůli jednoduchosti zpracovávají atributy samostatně.
 
Další druh transformací jsou globální transformace. Číselná data v nějakém metrickém (pod)prostoru můžeme otočitrotovat, natáhnout, centrovat ... Používané techniky jsou latentní sémantické indexování ([[LSI]]), analýza hlavních komponent ([[PCA]]) a další. Například pro klasifikaci pomocí [[SVM]] - support vectror machine - se doporučuje atributy přepočítat, aby měliměly střední hodnotu 0 a standardní odchylku 1.
 
== Měření ==
Je známo mnoho měr kvality klasifikátoru. Už byla spomínánavzpomínána [[křivka ROC]]. Měření se provádí na nových, nepoužitých datech, tzv. [[testovací data|testovacích]].
 
Obecně, různé chyby můžou mít různou cenu. Pro binární klasifikátory cena chyby pro [[falešná pozitiva]] a [[falešná negativa]] ([[Chyby typu I a II|nazývaných taky]] ''chyba prvního druhu'' a ''chyba druhého druhu'') může být různá. Pro obecné třídy cena chyby může být odvozena z podobnosti tříd.