Rozhodovací strom: Porovnání verzí

Smazaný obsah Přidaný obsah
m Oprava překlepu
Hodně předěláno
Řádek 1:
{{Upravit}}
Rozhodovací stromy jsou jednou z nejoblíbenějších data miningových [[Data mining]] technik. Důvodů proto je několik. Hlavní důvod spočívá v jejich přehlednosti a snadné interpretovatelnosti, která umožňuje uživatelům rychle a lehce vyhodnocovat získané výsledky, identifikovat klíčové položky a vyhledávat zajímavé segmenty případů. Cílem rozhodovacích stromů je hledat pro vybranou závislou proměnnou atributy, které mají na její hodnotu největší vliv. Závislou proměnnou může být například příznak, jestli klient splatil nebo nesplatil půjčku, hodnota profitability klienta, nebo identifikace zda si zákazník koupil či nekoupil daný produkt. Volba atributů, které mohou mít vliv na závislou proměnnou, se odvíjí od zkoumaného problému. Nejčastěji se volí pohlaví, věk, vzdělání, bydliště, atd...
 
Cílem rozhodovacích stromů je identifikovat objekty, popsané různými atributy, do tříd. Představit si je můžeme jako řádky v tabulce, kde jednotlivé sloupce jsou atributy (barva očí, délka ocasu). Jelikož se jedná o strom, algoritmus je velmi rychlý. Rozhodovací strom se musí nejprve vytvořit z množiny daných objektů, které musí někdo (učitel, jiný algoritmus) zařadit do skupin (skupina se obvykle označuje jako závislý atribut a zapisuje se do tabulky do posledního sloupce). Jedná se tedy o učení s učitelem.
 
Každý uzel stromu představuje jednu (vybranou) vlastnost objektů, z tohoto uzlu vede konečný počet hran. Proto je nutné vlastnosti nejdříve diskretizovat (např. z reálných čísel do konečného počtu intervalů). Kámen úrazu je však ve vytváření takového stromu. Ten musí co nejlépe objekty od sebe odlišit. Pro kořenový uzel se vybírá takový atribut, který objekty od sebe maximálně odliší. Využívá se proto entropie (míra informační hodnoty atributu). Vytváření stromů je dobře popsáno ve známých algoritmech ID3 a C4.5.
 
[[Kategorie: Umělá inteligence]]