Klasifikace (umělá inteligence): Porovnání verzí

Smazaný obsah Přidaný obsah
m →‎top: fix
→‎Vstupní data: royšíření a reformulace, i v okolí
Řádek 23:
* [[Vícelabelová klasifikace]] přiřazuje ke každému příkladu obecně víc tříd. Například k blogovému příspěvku několik klíčových slov ([[hashtag]]ů).
* [[Jednotřídní klasifikace]] dostává příklady pouze z jedné (pozitivní) třídy a má určit [[outlier]]y (''odlehlé hodnoty'') neboli [[anomálie]]. Používá se pro [[detekce anomálií|detekci anomálií]] a [[detekce novinek|detekci novinek]]. Obvykle se předpokládá, že většina dat je normální a anomálie jsou řídké. Tato úloha je podobná binární klasifikaci, kde četnosti jednotlivých tříd jsou nevyvážené.
* [[Fuzzy klasifikace]] určuje pravděpodobnost příslušnosti k jednotlivým třídám. Některé návazné algoritmy dokážou tuto informaci využít. Rozdíl (spíš podíl, [[Bayesovská statistika|bayesovsky]]) v pravděpodobnostech je možné brát jako vyjádření (sebe)jistoty klasifikátoru. Když je příklad blízko rozhodovací hranice, jsou pravděpodobnosti skoro stejné a klasifikátor nedokáže jednoznačně pozorování zatřídit.
 
Konkrétní praktické úlohy můžou formálně spadat do některého výše uvedeného druhu, ale můžou býtmít obtížnédalší vlastnosti, které je činí obtížnými z jiných důvodů, a případně používatje ivhodné používat jiné, specializované algoritmy. PříkladNapříklad binární klasifikace je základní úloha [[information retrieval]], kdy máme určit, zda dokument je relevantní nebo nerelevantní, ale počet atributů dokumentu odpovídá počtu slov (dané slovo je/není v dokumentu) a je typicky velký.
 
Příbuzné úlohy jsou například [[ranking]] pozorování, tj. určování pořadí. [[Rozpoznávaní vzorů]] je také příbuzná úloha binární (pro jeden vzor) nebo diskrétní klasifikace (pro několik vzorů), ale liší se tím, že vzor je často lokální a netýká se celého příkladu. ''Hledání tváře na obrázku'' je příklad tohoto druhu.
Řádek 43:
 
=== Vstupní data ===
Nejčastější podoba dat je seznam rysů, kde každý rys má daný typ hodnot. Rysy podle typů hodnot se principiálně dělí na diskrétní a spojité, které obvykle potřebují jiný přístup při učení a případně jiné algoritmy. Pokud algoritmus dovoluje zpracovat jen určitý typ rysů, je možné hodnoty převést případně se ztrátou informace, viz předzpracování.
 
V případě úlohy klasifikace a učení s učitelem má každý vstupní příklad určen výslednou kategorii jako hodnotu jednoho z rysů.
 
Jiné možnosti než učení s učitelem jsou [[polosupervizované učení]] a [[transdukce]] ([[Transdukce_(strojové_učení)|ve strojovém učení]]). Tyto metody dokáží využít i data, pro která nejsou určeny výsledné kategorie - takových dat je obvykle víc, obvakle je lacinější je získat a z hlediska výsledné kategorie nejsou zašuměna (když se experti určující kategorii neshodli).
 
;Typy vstupních dat
Řádek 55:
Surová data získaná z databází není vhodné použít přímo.
 
Předzpracování může identifikovat a vyloučit outliery, doplnit chybějící hodnoty, sjednotit zápis a formu příkladů (například kalendářní data jsou různorodá) a pod. Spojitá data můžeme zdiskrétnit (rozdělit na několik intervalů, je několik method) nebo naopak, pokud to algoritmus vyžaduje.
 
Další předzpracování může vybrat podmnožinu dat, pokud je [[dataset]] velký. Kromě doočíbijícího náhodného výběru můžeme chtít vybrat příklady typické nebo je pokrýt reprezentativně, což může znamenat například zachování poměru tříd nebo zachování zajímavých či typických příkladů.
Řádek 66:
Je známo mnoho měr kvality klasifikátoru. Už byla vzpomínána [[křivka ROC]]. Měření se provádí na nových, nepoužitých datech, tzv. [[testovací data|testovacích]].
 
Obecně, různé chyby můžou mít různou cenu. Pro binární klasifikátory cena chyby pro [[falešná pozitiva]] a [[falešná negativa]] (nazývaných taky [[Chyby typu I a II|''chyba prvního druhu'' a ''chyba druhého druhu'']]) může být různá. Pro obecné třídy cena chyby může být odvozena z podobnosti tříd; čím jsou třídy podobnější, tím je penalizace za chybu menší.
 
==Související články==