Adaptivní rezonanční teorie

Adaptivní rezonanční teorie (ART) je teorie, kterou vytvořili Stephen GrossbergGail Carpenterová a která se zabývá aspekty zpracování informací v mozku. Popisuje řadu modelů neuronových sítí, které využívají metody učení pod dohledembez dohledu a řeší problémy, jako je rozpoznávání vzorů. Hlavní intuice modelu ART spočívá v tom, že identifikace a rozpoznávání objektů obecně probíhá jako výsledek interakce očekávání pozorovatele „shora dolů“ se smyslovými informacemi „zdola nahoru“. Model předpokládá, že očekávání „shora dolů“ mají podobu paměťové šablony nebo prototypu, který je následně porovnáván se skutečnými vlastnostmi objektu zjištěnými smysly. Toto porovnání vede k míře kategoriální příslušnosti. Dokud tento rozdíl mezi vjemem a očekáváním nepřekročí stanovenou hranici nazývanou „parametr bdělosti“, bude vjemový objekt považován za příslušníka očekávané třídy. Systém tak nabízí řešení problému „plasticity/stability“, tj. problému získávání nových znalostí bez narušení stávajících znalostí, kterému se také říká inkrementální učení.

schéma ART sítě

Modifikace ARTEditovat

ART 1[1][2] je nejjednodušší variantou sítí ART, která přijímá pouze binární vstupy.

ART 2[3] rozšiřuje možnosti sítě o podporu spojitých vstupů.

ART 2-A[4] je zjednodušená forma ART-2 s výrazně zrychlenou dobou běhu a s kvalitativními výsledky, které jsou jen výjimečně horší než u plné implementace ART-2.

ART 3[5] navazuje na ART-2 simulací rudimentární neurotransmiterové regulace synaptické aktivity tím, že do rovnic systému začleňuje simulované koncentrace sodíkových (Na+) a vápníkových (Ca2+) iontů, což vede k fyziologicky realističtějšímu způsobu částečné inhibice kategorií, které spouštějí resety neshod.

ARTMAP[6], známý také jako prediktivní ART , kombinuje dvě mírně upravené jednotky ART-1 nebo ART-2 do struktury učení s dohledem, kde první jednotka přijímá vstupní data a druhá jednotka přijímá správná výstupní data, která se pak používají k minimální možné úpravě parametru bdělosti v první jednotce, aby se provedla správná klasifikace.

Fuzzy ART[7] implementuje fuzzy logiku do rozpoznávání vzorů ART, čímž zvyšuje zobecnitelnost. Volitelnou (a velmi užitečnou) funkcí fuzzy ART je kódování doplňků, což je způsob, jak do klasifikace vzorů zahrnout nepřítomnost rysů, což do značné míry zabraňuje neefektivnímu a zbytečnému rozšiřování kategorií. Je známo, že fuzzy ART je velmi citlivý na šum.

Fuzzy ARTMAP[8] je pouze ARTMAP využívající fuzzy jednotky ART, což vede k odpovídajícímu zvýšení účinnosti.

Zjednodušený fuzzy ARTMAP (SFAM)[9] představuje silně zjednodušenou variantu fuzzy ARTMAP určenou pro klasifikační úlohy.

Gaussovský ART a Gaussovský ARTMAP[10] používají Gaussovy aktivační funkce a výpočty založené na teorii pravděpodobnosti. Proto mají určitou podobnost s modely Gaussovských směsí. Ve srovnání s fuzzy ART a fuzzy ARTMAP jsou méně citlivé na šum. Stabilita naučených reprezentací je však snížena, což může vést k rozšiřování kategorií v otevřených učebních úlohách.

Fúzní ART a příbuzné sítě[11][12][13] rozšiřují ART a ARTMAP na více kanálů vzorů. Podporují několik paradigmat učení, včetně učení bez dohledu, učení s dohledem a učení s posilováním.

TopoART[14] kombinuje fuzzy ART se sítěmi pro učení topologie, jako je rostoucí neuronový plyn. Navíc přidává mechanismus redukce šumu. Existuje několik odvozených neuronových sítí, které rozšiřují TopoART na další paradigmata učení.

Hypersférický ART a Hypersférický ARTMAP[15] úzce souvisí s fuzzy ART, resp. fuzzy ARTMAP. Protože však používají jiný typ reprezentace kategorií (konkrétně hypersféry), nevyžadují, aby byl jejich vstup normalizován na interval ⟨0,1⟩.

LAPART[16], tj. Laterally Primed Adaptive Resonance Theory, spojuje dva algoritmy Fuzzy ART a vytváří mechanismus pro vytváření předpovědí na základě naučených asociací. Spojení dvou algoritmů Fuzzy ART má jedinečnou stabilitu, která umožňuje systému rychle konvergovat k jasnému řešení. Navíc dokáže provádět logické odvozování a učení pod dohledem podobně jako fuzzy ARTMAP.

ART 1Editovat

ART 1[17] je dvouvrstvá rekurentní umělá neuronová síť pracující s binárními vstupy a tzv. vnořením vnitřní přenosové funkce do vnější, tj. vnitřní přenosovou funkci užívá tzv. Shunting model (viz Grossbergova síť) až do své stabilizace, po té se vnitřní přenosová funkce přepne na vnější přenosovou funkci ve tvaru skokové funkce, tj. stavy neuronů všech vrstev jsou pak binární. Změny potenciálů neuronů v čase probíhají mnohem rychleji než změny vah v čase, proto během adaptace vah můžeme uvažovat potenciály neuronů jako již ustálené, tj. konstantní (Fast learning). Dopředné i zpětné váhy se aktualizují současně. Kdykoli vzor a očekávání mají odpovídající shodu, jak určuje orientační subsystém, jsou obě upraveny. Tento proces shody a následné adaptace vah se označuje jako rezonance. Potenciály neuronů 1. resp. 2. resp. 0. vrstvy se v dalším značí  ,  ,   s indexováním i resp. j resp. žádným a vnější přenosová funkce se v dalším značí  .

Vrstva 1Editovat

Mějme Shunting model první (porovnávací) vrstvy o n neuronech pro vnitřní přenosovou lineární funkci a pro   ve tvaru:

 

kde   resp.   je jednotková matice řádu n resp. matice o jednotkových prvcích řádu m, pak dostaneme:

 .

Zaprvé uvažujme nulové stavy všech neuronů druhé vrstvy, pak dostaneme Shunting model ve tvaru:

  tj.   tj.:
ad 1) pro   platí   a potažmo platí  
ad 2) pro   platí   a potažmo platí  

tj. z ad 1) a ad 2) plyne  .

Zadruhé uvažujme nulové stavy všech neuronů druhé vrstvy, kromě jediného k-tého neuronu s jednotkovým stavem, pak dostaneme Shunting model ve tvaru:

  tj.   tj.:
ad 1) z   plyne   a potažmo plyne  
ad 2) z   plyne   a potažmo plyne  

tj. z ad 1) a ad 2) plyne   kde  .

Z výše uvedených úvah plyne, že v případě neaktivní druhé vrstvy se stav první vrstvy nastaví na předložený vzor. V případě aktivní druhé vrstvy, se stav první vrstvy nastaví na druhou vrstvou iniciovaný očekávaný vzor, tj. na logický součin předloženého vzoru s uvedeným váhovým vektorem.

Vrstva 2Editovat

Mějme Shunting model druhé (rozpoznávací) vrstvy o m neuronech pro vnitřní přenosovou kvadratickou funkci a pro   a   (  resp.   viz Grossbergova síť) ve tvaru:

 

kde   představuje skalární součin stavů vstupních neuronů s vahami vstupu j-tého výstupního neuronu, neboli zisk potenciálu výstupního neuronu od vstupní (první) vrstvy, tj.:

  kde  .

Zaprvé uvažujme uvedený Shunting model při zanedbání zisku potenciálu, pak ustálený potenciál neuronu dostaneme ve tvaru:

  tj.   nebo   tj. neuron je buď inhibován na nulu nebo excitován na uvedenou hodnotu.

Vrátíme-li do předchozího zanedbaný zisk potenciálu, dostaneme ustálený stav druhé vrstvy se všemi neurony inhibovanými, kromě jediného, a to neuronu s největším ziskem potenciálu, tj. vítěz bere vše.

Zadruhé pro srovnání uvažujme uvedený Shunting model pro vnitřní přenosovou lineární funkci:

  tj.  

kde  , pak dostáváme normalizované potenciály druhé vrstvy sítě (srovnejte se vzory normalizovanými první vrstvou Grossbergovy sítě).

Vrstva 0Editovat

Mějme Shunting model nulté (resetovací) vrstvy o jednom neuronu (Orienting subsystem ) pro   ve tvaru:

 

kde   resp.   je vektor o složkách   řádu n resp. vektor o jednotkových složkách řádu n, pak dostaneme:

  tj.   tj. pro   dostaneme   tj.  .

Parametr   ( ) nazveme mírou bdělosti (Vigilance), na základě které se případně iniciuje inhibice (reset) neuronů druhé vrstvy po dobu, dokud nedojde k odpovídající shodě mezi binárním vstupem   a binárním očekáváním   na první vrstvě o n neuronech. Z neuronu nulté vrstvy vedou vazby do neuronů druhé vrstvy o hodnotě váhy  . Resetovací signál tedy způsobí inhibici vítězného neuronu druhé vrstvy a umožní tak jinému neuronu druhé vrstvy vyhrát soutěž.

Dopředné učeníEditovat

Pro dopředné učení platí instar [18] učící pravidlo modifikované o analogii Shunting modelu pro  ,   a   resp.   viz Grossbergova síť:

  tj.   tj.:
ad 1) z   plyne  
ad 2) z   plyne  , tj. pro   dostaneme  

tj. z ad 1) a ad 2) plyne pro  , že váha   se pohybuje v rozmezí od nuly k jedné včetně, tj. modifikací učícího pravidla o analogii Shunting modelu jsme docílili normalizace ustálených dopředných vah.

Zpětné učeníEditovat

Pro zpětné učení platí outstar [18] učící pravidlo viz Grossbergova síť:

  tj. pro ustálenou hodnotu váhy dostaneme  

tj. ustálená váha   nabývá hodnoty nula nebo jedna.

ReferenceEditovat

  1. Carpenter, G.A. & Grossberg, S. (2003), Adaptive Resonance Theory Archivováno 19. 5. 2006 na Wayback Machine., In Michael A. Arbib (Ed.), The Handbook of Brain Theory and Neural Networks, Second Edition (pp. 87-90). Cambridge, MA: MIT Press
  2. Grossberg, S. (1987), Competitive learning: From interactive activation to adaptive resonance Archivováno 7. 9. 2006 na Wayback Machine., Cognitive Science (journal), 11, 23-63
  3. Carpenter, G.A. & Grossberg, S. (1987), ART 2: Self-organization of stable category recognition codes for analog input patterns Archivováno 4. 9. 2006 na Wayback Machine., Applied Optics, 26(23), 4919-4930
  4. Carpenter, G.A., Grossberg, S., & Rosen, D.B. (1991a), ART 2-A: An adaptive resonance algorithm for rapid category learning and recognition Archivováno 19. 5. 2006 na Wayback Machine., Neural Networks, 4, 493-504
  5. Carpenter, G.A. & Grossberg, S. (1990), ART 3: Hierarchical search using chemical transmitters in self-organizing pattern recognition architectures Archivováno 6. 9. 2006 na Wayback Machine., Neural Networks, 3, 129-152
  6. Carpenter, G.A., Grossberg, S., & Reynolds, J.H. (1991), ARTMAP: Supervised real-time learning and classification of nonstationary data by a self-organizing neural network Archivováno 19. 5. 2006 na Wayback Machine., Neural Networks, 4, 565-588
  7. Carpenter, G.A., Grossberg, S., & Rosen, D.B. (1991b), Fuzzy ART: Fast stable learning and categorization of analog patterns by an adaptive resonance system Archivováno 19. 5. 2006 na Wayback Machine., Neural Networks, 4, 759-771
  8. Carpenter, G.A., Grossberg, S., Markuzon, N., Reynolds, J.H., & Rosen, D.B. (1992), Fuzzy ARTMAP: A neural network architecture for incremental supervised learning of analog multidimensional maps Archivováno 19. 5. 2006 na Wayback Machine., IEEE Transactions on Neural Networks, 3, 698-713
  9. Mohammad-Taghi Vakil-Baghmisheh and Nikola Pavešić. (2003) A Fast Simplified Fuzzy ARTMAP Network, Neural Processing Letters, 17(3):273–316
  10. James R. Williamson. (1996), Gaussian ARTMAP: A Neural Network for Fast Incremental Learning of Noisy Multidimensional Maps, Neural Networks, 9(5):881-897
  11. Y.R. Asfour, G.A. Carpenter, S. Grossberg, and G.W. Lesher. (1993) Fusion ARTMAP: an adaptive fuzzy network for multi-channel classification. In: Proceedings of the Third International Conference on Industrial Fuzzy Control and Intelligent Systems (IFIS).
  12. TAN, A.-H.; CARPENTER, G. A.; GROSSBERG, S. Intelligence Through Interaction: Towards a Unified Theory for Learning. Redakce Liu D.. Advances in Neural Networks – ISNN 2007. Berlin, Heidelberg: Springer, 2007, s. 1094–1103. Dostupné online. ISBN 978-3-540-72383-7. DOI 10.1007/978-3-540-72383-7_128. (anglicky) 
  13. TAN, A.-H.; SUBAGDJA, B.; WANG, D.; MENG, L. Self-organizing neural networks for universal learning and multimodal memory encoding. Neural Networks. 2019, s. 58–73. Dostupné online. DOI 10.1016/j.neunet.2019.08.020. (anglicky) 
  14. Marko Tscherepanow. (2010) TopoART: A Topology Learning Hierarchical ART Network, In: Proceedings of the International Conference on Artificial Neural Networks (ICANN), Part III, LNCS 6354, 157-167
  15. Georgios C. Anagnostopoulos and Michael Georgiopoulos. (2000), Hypersphere ART and ARTMAP for Unsupervised and Supervised Incremental Learning, In: Proceedings of the International Joint Conference on Neural Networks (IJCNN), vol. 6, 59-64
  16. Sandia National Laboratories (2017) Lapart-python documentation
  17. HAGAN, Martin T. Neural network design. druhé. vyd. [s.l.]: [s.n.], 2014. 800 s. Dostupné online. (anglicky) 
  18. a b GROSSBERG, Stephen. Recurrent neural networks. [s.l.]: Scholarpedia, 2013. Dostupné online. (anglicky) 

LiteraturaEditovat