Klasifikace (umělá inteligence): Porovnání verzí

Smazaný obsah Přidaný obsah
OndraVozar (diskuse | příspěvky)
typo, jazyk. upr, terminologie
Řádek 1:
 
'''Klasifikace''' je ve [[strojové učení|strojovém učení]] a [[statistika|statistice]] druh problému, když máme určit, do které z [[kategoriální proměnná|kategorií]] dat dané [[pozorování]] patří. K tomu máme k dispozici [[trénovací množina|trénovací množinu]] obsahující pozorování (data, instance), pro která jsou kategorie správně určeny. Jednotlivá pozorování jsou analyzována do množiny kvantifikovatelných vlastností, známých jako [[nezávislá proměnná|nezávislé proměnné]], rysy, fíčury (features) apod. Tyto vlastnosti můžou být kategoriální (např. "A", "B", "AB" nebo "O" pro [[krevní skupina|krevní skupiny]], [[ordinální data|ordinální]] (např. "velký", "střední" nebo "malý"), [[celočíselné]] (např. počet výskytů slova v emailu) anebo [[reálné]] (např. měření [[Krevní tlak|krevního tlaku]]). Některé algoritmy pracují pouze s diskrétními hodnotami a požadují, aby se celočíselná nebo reálná data ''diskretizovalydiskretizovala'', tj. převedlypřevedla se na skupinykategorie obsahující podobná pozorování (např. "méně než 5", "mezi 5 a 10", "víc než 10"). Jako příklad problému je přiřazení emailu do třídy "spam" nebo "ne-spam" anebo přiřazeni diagnozy danému pacientovi, podle toho jeho pozorovaných charakteristik (pohlaví, věk, krevní tlak, přítomnost nebo absence určitých symptomů, ...)
 
Algoritmus, který implementuje klasifikaci, se nazývá [[klasifikátor]]. Tento termín se používá také pro [[funkce (matematika)|matematickou funkci]], která je implementována algoritmem, a zobrazuje vstupní data na třídy.
 
V terminologii [[strojové učení|strojového učení]] je klasifikace považována za metodu [[učení s učitelem]], to jest učení, při kterém je známá trénovací množina správně klasifikovaných příkladů. Analogická metoda v [[učení bez učitele]] je známá jako [[Shluková analýza|klastrování]] a spočívá ve spojování dat do kategorií podle nějaké míry vnitřní [[podobnost (obecný pojem)|podobnosti]] (např. odvozené ze [[vzdálenost]]i mezi instancemi, které jsou považovány za vektory ve vícedimenzionálním [[vektorový prostor|vektorovém prostoru]].
 
Terminologie není jednotná a liší v statistice a strojovém učením, případně v různých aplikačních oblastech.
Řádek 23:
* [[Diskrétní klasifikace]] zařazuje příklady do několika tříd, obecně víc než dvou.
* [[Vícelabelová klasifikace]] přiřazuje ke každému příkladu obecně víc tříd. Například k blogovému příspěvku několik klíčových slov ([[hashtag]]ů).
* [[Jednotřídní klasifikace]] dostává příklady pouze z jedné (pozitivní) třídy a má určit [[outlier]]y (''odlehlé hodnoty'') neboli [[anomálie]]. Používá se pro [[detekce anomálií|detekci anomálií]] a [[detekce novinek|detekci novinek]]. Obvykle se předpokládá, že většina dat je normální a anomálie jsou řídké. Tato úloha je podobná binární klasifikaci, kde třídyčetnosti jednotlivých tříd jsou nevyvážené.
* [[Fuzzy klasifikace]] určuje pravděpodobnost příslušnosti k jednotlivým třídám. Některé návazné algoritmy dokážou tuto informaci využít. Rozdíl v pravděpodobnostech je možné brát jako vyjádření (sebe)jistoty klasifikátoru. Když je příklad blízko rozhodovací hranice, jsou pravděpodobnosti skoro stejné a klasifikátor sinedokáže neníjednoznačně jistýpozorování zatřídit.
 
Konkrétní praktické úlohy můžou formálně spadat do některého výše uvedeného druhu, ale můžou být těžkéobtížné z jiných důvodů a případně používat i jiné algoritmy. Příklad binární klasifikace je základní úloha [[information retrieval]], kdy máme určit, zda dokument je relevantní.
 
Příbuzné úlohy jsou například [[ranking]] příkladůpozorování, tj. určování pořadí. [[Rozpoznávaní vzorů]] je také příbuzná úloha binární (pro jeden vzor) nebo diskrétní klasifikace (pro několik vzorů), ale liší se tím, že vzor je často lokální a netýká se celého příkladu. ''Hledání tváře na obrázku'' je příklad tohoto druhu.
 
== Algoritmy ==
Řádek 41:
'''Celkové schéma''' přístupu je, že se nejdříve naučí (''natrénuje'') klasifikátor na základě trénovacích dat. Hotový klasifikátor se pak používá pro klasifikaci nových dat.
 
Komplikace vyžadující speciální přístup a algorimty jsou, když je příkladů mnoho (miliony) nebo naopak málo nebo když je rysů mnoho, případně jsou závislé. Pokud vybraný algoritmus data nezvládá, použije se předzpracování dat, kterému je věnována podkapitola.
 
=== Vstupní data ===
Řádek 56:
Surová data získaná z databází není vhodné použít přímo.
 
Předzpracování může identifikovat a vypustitvyloučit outliery, doplnit chybějící hodnoty, sjednotit zápis a formu příkladů (například kalendářní data jsou různorodá) a pod.
 
Další předzpracování může vybrat podmnožinu dat, pokud je [[dataset]] velký. Kromě doočíbijícího náhodného výběru můžeme chtít vybrat příklady typické nebo je pokrýt reprezentativně, což může znamenat například zachování poměru tříd nebo zachování zajímavých příkladů.
Řádek 62:
Předzpracování může vybrat atributy v rámci [[výběr rysů|výběru rysů]] anebo může atributy přidat pomocí [[extrakce rysů]]. První přístup se typicky používá, pokud je atributů mnoho, či jsou závislé a nerelevantní. Druhý přístup se používá, pokud jsou jednotlivé atrubuty nevhodné pro další zpracování a potřebujeme jejich kombinace. Některé metody klasifikace totiž z principu nebo kvůli jednoduchosti zpracovávají atributy samostatně.
 
Další druh transformací jsou globální transformace. Číselná data v nějakém metrickém (pod)prostoru můžeme rotovat, natáhnout, centrovat ... Používané techniky jsou [[latentní sémantické indexování]] (LSI), [[analýza hlavních komponent]] (PCA) a další. Například pro klasifikaci pomocí [[support vector machines]] (SVM) se doporučuje atributy přepočítatstandardizovat, aby měly střední hodnotu 0 a standardní odchylku 1.
 
== Měření ==