Bellmanova rovnice: Porovnání verzí

nutná podmínka optimality matematické optimalizační metody známé jako dynamické programování
Smazaný obsah Přidaný obsah
Vytvoření stránky překladem z angličtiny
(Žádný rozdíl)

Verze z 5. 12. 2019, 09:03

Bellmanova rovnice pojmenovaná podle svého autora Richarda Bellmana, je nutná podmínka optimality matematické optimalizační metody známé jako dynamické programování.[1] Určuje „hodnotu“ rozhodovacího problému v určitém časovém okamžiku podle výplaty závislé na nějakých počátečních rozhodnutích a „hodnoty“ zbývajícího rozhodovacího problému, který vyplývá z těchto počátečních rozhodnutí. Tím se dynamický optimalizační problém rozloží na posloupnost jednodušších podproblémů, jak popisuje „Bellmanův princip optimality“.[2]

Bellmanova rovnice byla nejdříve aplikována na inženýrskou teorii řízení a různé obory užité matematiky, poté se stala důležitým nástrojem v ekonomické teorii; základní koncepty dynamického programování jsou však popsány již v pracích Theory of Games and Economic Behavior Johna von Neumanna a Oskara Morgensterna a Sequential analysis Abrahama Walda.

Téměř jakýkoli problém, který lze vyřešit pomocí teorie optimálního řízení může také být vyřešený analýzou určité Bellmanovy rovnice. Termín 'Bellmanova rovnice' se obvykle používá pro rovnici dynamického programování popisující optimalizační problém v diskrétním čase[3]. Analogickou roli pro optimalizační problémy ve spojitém čase hraje parciální diferenciální rovnice, která se obvykle nazývá Hamiltonova–Jacobiho–Bellmanova rovnice[4][5].

Analytické koncepty v dynamickém programování

Pro pochopení Bellmanovy rovnice je třeba znát několik základních pojmů. Prvním z nich je, že každý optimalizační problém má určitý cíl, jímž může být minimalizace doby trvání cesty, minimalizace ceny, maximalizace zisku, maximalizace užitku, atd. Matematické funkce, která popisuje tento cíl, se nazývá účelová funkce (anglicky objective function).

Dynamické programování rozkládá několikaetapové rozhodovací procesy na řadu postupných rozhodnutí. Proto vyžaduje naustálé sledování, jak se situace vyvíjí v čase. Informace o aktuální situaci, které jsou nutné pro optimální rozhodnutí, se nazývají „stav“[6][7]. Například pro rozhodnutí, jaké množství určitého statku (majetku) spotřebovat a jaké vynaložit v příslušné časové etapě, je potřeba znát (mimo jiné) počáteční množství majetku. Proto majetek   bude jedna ze stavových proměných, ale pravděpodobně budou existovat i další stavové proměnné.

Proměnné zvolené při rozhodnutí v každé časové etapě se obvykle nazývají řídicí proměnné. Je-li například dán výchozí majetek určité osoby, může se tato osoba rozhodovat, jak velkou jeho část v aktuální etapě spotřebovat. Aktuální volba hodnoty řídicí proměnné může být ekvivalentní s výběrem dalšího stavu; obecně však může být další stav ovlivněn i jinými faktory než aktuální hodnotou řídicí proměnné. Například v nejjednodušším případě dnešní majetek (stav) a spotřeba (hodnota řídicí proměnné) může jednoznačně určovat zítřejší majetek (nový stav), i když typicky budou zítřejší majetek ovlivňovat i jiné faktory.

Přístup dynamického programování popisuje optimální plán hledáním pravidla, které říká, jaké mají být hodnoty řídicích proměnných v každé etapě pro libovolnou hodnotu stavu. Například jestliže spotřeba (c) závisí pouze na majetku (W), hledáme pravidlo  , které dává spotřebu jako funkci majetku. Takové pravidlo, které určuje hodnotu řídicí proměnné jako funkce stavů, se nazývá řídicí funkce (anglicky policy function, viz Bellman, 1957, Ch. III.2)[6].

Podle definice je optimální rozhodovací pravidlo takové, které zajišťuje nejlepší možnou hodnotu účelové funkce. Pokud například někdo zvolí jako cíl maximalizaci spotřeby při daném majetku, aby maximalizoval spokojenost (za předpokladu, že spokojenost H lze reprezentovat matematickou funkcí, jako je užitková funkce, a že spokojenost je něco definovaný by majetek), pak každá úroveň majetku bude spojena s nějakou nejvyšší možnou úrovní spokojenosti,  . Nejlepší možná hodnota účelové funkce, zapsaná jako funkce stavu, se nazývá hodnotová funkce (anglicky value function).

Richard Bellman ukázal, že dynamický optimalizační problém v diskrétním čase lze vyjádřit v rekurzivním tvaru známém jako zpětná indukce, který vyjadřuje vztah mezi hodnotou optimálního řešení úlohy v jedné etapě a její hodnotou v následující etapě. Vztah mezi těmito dvěma hodnotami hodnotové funkce se nazývá „Bellmanova rovnice“. Optimální strategie v poslední časové etapě je u tohoto přístupu zadaná předem jako funkce hodnoty stavové proměnné v této etapě; výsledná optimální hodnota účelové funkce je tedy vyjádřena pomocí této hodnoty stavové proměnné. Optimalizace pro následující etapu znamená maximalizaci součtu aktuální hodnoty účelové funkce a optimální hodnoty budoucí účelové funkce, což dává kontingenci optimální strategie pro tuto etapu v závislosti na hodnotě stavové proměnné jakožto rozhodnutí v následujících etapách. S touto logikou pokračujeme rekurzivně zpět v čase až k odvození rozhodovacího pravidla pro první etapu jako funkce počáteční hodnoty stavové proměnné optimalizací sumy účelové funkce pro první etapu a hodnoty hodnotové funkce pro druhou etapu, která určuje hodnotu pro všechny budoucí etapy. Tedy rozhodnutí pro každou etapu se provede explicitním uznáním, že všechna budoucí rozhodnutí budou učiněna optimálně.

Odvození

Dynamický rozhodovací problém

Stav v čase   budeme značit  . Počáteční stav pro rozhodnutí učiněné v čase 0 je tedy  . Množina akcí možných v libovolném čase závisí na okamžitém stavu; což můžeme psát jako  , kde akce   reprezentuje jednu nebo více řídicích proměnných. Také předpokládáme, že se provedením akce   stav změní z   do nového stavu  , a že současná výplata z provedení akce   ve stavu   je  . Navíc předpokládáme netrpělivost reprezentovanou diskontním faktorem  .

Za těchto předpokladů má rozhodovací problém s nekonečným časovým horizontem následující tvar:

 

při platnosti omezení

 

  označuje optimální hodnotu, kterou lze získat maximalizací této účelové funkce při platnosti uvedených omezení. Tato funkce je hodnotová funkce. Je funkcí počáteční stavové proměnné  , protože nejlepší hodnota, kterou lze získat, závisí na počáteční situaci.

Bellmanův princip optimality

Metoda dynamického programování rozkládá rozhodovací problém na menší podproblémy. Richard Bellman zformuloval princip optimality, který popisuje jak rozklad provést:

Princip optimality: Optimální strategie má tu vlastnost, že ať je počáteční stav a počáteční rozhodnutí jakékoli, zbývající rozhodnutí musí tvořit optimální strategii pro stav, který je výsledkem prvního rozhodnutí. (Viz Bellman, 1957, Chap. III.3.)[6][7][8]

O problému, který lze takto rozdělit na podproblémy, říkáme v matematické informatice, že má optimální podstrukturu. V kontextu dynamické teorie her je tento princip obdobou konceptu dokonalé rovnováhy podhry, i když to, z čeho se skládá optimální strategie je v tomto případě podmíněné výběrem optimální (z pohledu protivníků) strategie protivníků.

V souladu s principem optimality budeme uvažovat první rozhodnutí odděleně, bez uvažování všech budoucích rozhodnutí (která začínají etapou 1 ve výchozím stavu  ). Budoucí rozhodnutí jsou shrnuta v hranatých závorkách. Předchozí problém je ekvivalentní s:

 

při platnosti omezení

 

Zde volíme  , protože víme, že naše rozhodnutí povede do stavu 1, tj.  . Tento nový stav pak bude ovlivňovat rozhodovací problém od času 1 dále. Celý budoucí rozhodovací problém se objevuje v hranatých závorkách vpravo.

Bellmanova rovnice

Zdá se, že oddělením aktuálního rozhodnutí od budoucích rozhodnutí se problém jenom stal ošklivějším. Pokud si však všimneme, že výraz v hranatých závorkách vpravo je hodnota rozhodovacího problému v čase 1, začínající ze stavu  .

Proto můžeme rovnici přepsat jako rekurzivní definici hodnotové funkce:

 , při platnosti omezení:  

Výsledný tvar nazýváme Bellmanova rovnice. Rovnici můžeme dále zjednodušit vypuštěním časových indexů a použitím hodnoty dalšího stavu:

 

Bellmanova rovnice je funkcionální rovnicí, protože jejím řešením je funkce V, která je hodnotová funkce. Pamatujte, že hodnotová funkce popisuje nejlepší možnou hodnotu účelové funkce jako funkci stavu x. Při výpočtu hodnotové funkce zjistíme také funkci a(x), která popisuje optimální akci jako funkci stavu; tato funkce se nazývá řídicí funkce.

Stochastické problémy

Související informace naleznete také v článku Markovův rozhodovací proces.

V deterministickém prostředí lze pro řešení výše uvedeného problému optimálního řízení použít i jiné techniky než dynamické programování. V případě stochastických problémů optimálního řízení je však Bellmanova rovnice často nejpohodlnější metodou jejich řešení.

Pro konkrétní příklad z ekonomie uvažujme spotřebitele žijícího nekonečnou dobu s počátečním majetkem   v čase  . Spotřebitel má okamžitou užitkovou funkci  , kde   označuje spotřebu a diskontování užitku v další periodě má velikost  . Předpokládejme, že co není spotřebováno v čase   přenáší se do další etapy s úrokovou sazbou  . Pak problém maximalizace užitku spotřebitele je vybrat takový plán spotřeby  , který řeší

 

pro

 

a

 

Prvním omezením je zákon akumulace kapitálu pohybu zadaný problémem, druhým omezením je podmínka transverzality, že spotřebitel nepřenáší dluh na konci svého života. Bellmanova rovnice je

 

Případně můžeme řešit problém posloupnosti přímo například pomocí Hamiltonových rovnic.

Jestliže se nyní v jednotlivých etapách úroková sazba mění, musí spotřebitel řešit stochastický optimalizační problém. Pokud budeme změny sazby r považovat za Markovův proces s funkcí přechodu pravděpodobnosti  , kde   označuje pravděpodobnostní míru řídící výši úrokové sazby na další etapu, jestliže současná úroková sazba je  . Časování modelu spočívá v tom, že spotřebitel rozhoduje o své spotřebě v příští etapě po ohlášení úrokové sazby pro tuto etapu.

Místo výběru jediné posloupnosti   musí spotřebitel nyní zvolit posloupnost   pro každou možnou realizaci   takovým způsobem, aby maximalizoval očekávaný užitek pro dobu svého života:

 

Očekávání   se bere vzhledem k vhodné pravděpodobnostní míře dané Q na posloupnosti r. Protože r je řízeno Markovovým procesem, dynamické programování problém výrazně zjednodušuje. Bellmanova rovnice pak má jednoduchý tvar

 

Za určitého rozumného předpokladu je výsledná optimální řídicí funkce g(a,r) měřitelná.

Pro obecný stochastický sekvenční optimalizační problém s Markovskými změnami, v němž je agent konfrontován se svými rozhodnutími ex-post, přejde Bellmanova rovnice na velmi podobný tvar

 

Metody řešení

Aplikace v ekonomii

První známá aplikace Bellmanovy rovnice v ekonomii se přičítá Martin Beckmann a Richard Muth.[12] Martin Beckmann v roce 1959 také široce popsal teorii spotřeby pomocí Bellmanovy rovnice. Jeho dílo mimo jiné ovlivnilo Edmund S. Phelps.

Oslavovanou ekonomickou aplikací Bellmanovy rovnice je podnětný článek Robert C. Mertona z roku 1973 o intertemporálním modelu oceňování kapitálových aktiv.[13] (Viz také Mertonův problém portfolia). Řešení Mertonova teoretického modelu, ve kterém investoři volí mezi příjmem současným a budoucím a kapitálovými zisky, má tvar Bellmanovy rovnice. Protože aplikace dynamického programování v ekenomii obvykle vedou k Bellmanově rovnici, která má tvar diferenční rovnice, ekonomové zpravidla místo názvu dynamické programování používají název „rekurzivní metoda“ a v rámci ekonomie existuje obor rekurzivní ekonomie.

Nancy Stokey, Robert E. Lucas a Edward C. Prescott popsali velmi detailně stochastické a nestochastické dynamické programování a zformulovali věty pro existenci řešení problémů, které splňují určité podmínky. Popsali také mnoho příkladů modelování teoretických problémů v ekonomii pomocí rekurzivních metod.[14] Díky jejich knize se dynamické programování používá pro řešení širokého rozsahu teoretických problémů v ekonomii, včetně optimálního ekonomického růstu, získávání prostředků, Problému vedoucí-agant, veřejné finance, obchodní investice, ocenění majetku, faktor zásob a podniková ekonomika. Lars Ljungqvist a Thomas Sargent aplikovali dynamické programování na studium mnoha teoretických otázek v monetární politice, fiskální politice, zdaňování, hospodářský růst, teorii hledání a pracovní ekonomika.[15] Avinash Dixit a Robert Pindyck ukázali hodnotu metody pro oblast investičních rozpočtů.[16] Anderson upravil techniku pro obchodní valuaci včetně soukromých firem.[17]

Používání dynamického programování pro řešení konkrétních problémů komplikují informační potíže, jako například problém nezjistitelného diskontního faktoru. Existují také výpočetní problémy, z nichž hlavní je prokletí dimenzionality způsobené obrovským množstvím možných akcí a hodnot stavových proměnných, které musí být uvažovány pro výběr optimální strategie. Výpočetní problémy podrobně diskutuje Miranda a Fackler,[18] a Meyn 2007.[19]

Příklad

V Markovových rozhodovacích procesech je Bellmanova rovnice rekurzivním vztahem pro očekávaný výnos. Například pro očekávaný výnos při použití nějaké pevné strategie   ve stavu s má Bellmanova rovnice tvar:

 

Tato rovnice popisuje očekávaný výnos provedení akce předepsané nějakou strategií  .

Rovnice pro optimální strategii se nazývá Bellmanova rovnice optimality:

 

kde   je optimální strategie a   znamená hodnotovou funkci optimální strategie. Výše uvedená rovnice popisuje výnos z provedení akce, která dává nejvyšší očekávaný výnos.

Odkazy

Související články

Reference

V tomto článku byl použit překlad textu z článku Bellman equation na anglické Wikipedii.

  1. DIXIT, Avinash K. Optimization in Economic Theory. 2. vyd. Oxford: Oxford University Press, 1990. Dostupné online. ISBN 0-19-877211-4. 
  2. KIRK, Donald E. Optimal Control Theory: An Introduction. Englewood Cliffs, NJ: Prentice-Hall, 1970. Dostupné online. ISBN 0-13-638098-0. 
  3. KIRK, Donald E. Optimal Control Theory: An Introduction. Englewood Cliffs, NJ: Prentice-Hall, 1970. Dostupné online. ISBN 0-13-638098-0. 
  4. KAMIEN, Morton I.; SCHWARTZ, Nancy L. Dynamic Optimization: The Calculus of Variations and Optimal Control in Economics and Management. 2. vyd. Amsterdam: Elsevier, 1991. Dostupné online. ISBN 0-444-01609-0. 
  5. KIRK, Donald E. Optimal Control Theory: An Introduction. Englewood Cliffs, NJ: Prentice-Hall, 1970. Dostupné online. ISBN 0-13-638098-0. 
  6. a b c BELLMAN, R. E. Dynamic Programming. Princeton, NJ; Dover: Princeton University Press, 1957 (2003 tisk). ISBN 0-486-42809-5. .
  7. a b DREYFUS, S. Richard Bellman on the birth of dynamic programmin. Operation Research. 2005-01-10, roč. 50, čís. 1. Dostupné v archivu pořízeném z originálu. 
  8. R Bellman, On the Theory of Dynamic Programming, Proceedings of the National Academy of Sciences, 1952
  9. LJUNGQVIST, Lars; SARGENT, Thomas J. Recursive Macroeconomic Theory. 2. vyd. [s.l.]: MIT Press, 2004. Dostupné online. ISBN 0-262-12274-X. 
  10. BERTSEKAS, D. P.; TSITSIKLIS, J. N. Neuro-Dynamic Programming. [s.l.]: Athena Scientific, 1996. 
  11. MIAO, Jianjun. Economic Dynamics in Discrete Time. [s.l.]: MIT Press, 2014. Dostupné online. ISBN 978-0-262-32560-8. 
  12. BECKMANN, Martin; MUTH, Richard. On the Solution to the ‘Fundamental Equation’ of inventory theory. cowles.yale.edu. 1954. Dostupné online. 
  13. MERTON, Robert C. An Intertemporal Capital Asset Pricing Model. Econometrica. 1973. JSTOR 1913811. 
  14. STOKEY, Nancy; LUCAS, Robert E.; PRESCOTT, Edward. Rekurzivní Metody v Economic Dynamics. [s.l.]: Harvard Univ. Press., 1989. ISBN 0-674-75096-9. 
  15. LJUNGQVIST, Lars; SARGENT, Thomas. Rekurzivní Macroeconomic Teorie. Third. vyd. [s.l.]: MIT Press, 2012. ISBN 978-0-262-01874-6. 
  16. DIXIT, Avinash; PINDYCK, Robert. Investment Za Uncertainty. [s.l.]: Princeton Univ. Press, 1994. Dostupné online. ISBN 0-691-03410-9. 
  17. Anderson, Patrick L., Business Economics & Finance, CRC Press, 2004 (chapter 10), ISBN 1-58488-348-0; The Value of Private Businesses in the United States, Business Economics (2009) 44, 87–108. DOI:10.1057/be.2009.4. Economics of Business Valuation, Stanford University Press (2013); ISBN 9780804758307. Stanford Press Archivní kopie na Internet Archive.
  18. Miranda, M., & Fackler, P., 2002. Applied Computational Economics a Finance. MIT Press
  19. S. P. Meyn, 2007. Control Techniques for Complex Networks Archivní kopie na Internet Archive., Cambridge University Press, 2007. Appendix obsahuje abridged Meyn & Tweedie Archivní kopie na Internet Archive..