Reinforcement Learning with Function Approximation: Survey and Practice Experience
Proceedings of International Conference on Modelling of Business, Industrial and Transport Systems
2008
Jurijs Čižovs
Šī raksta mērķis ir sniegt pārskatu par Function Approximation un Policy Gradient metodēm. Lai to izdarītu, tiek realizēti algoritmi Tile Coding un Gradient Descent with Backpropagation Artificial Neural Network. Izmantojot pakalna mašīnas uzdevumu, tiek demonstrēti eksperimentu rezultāti.
Keywords
Reinforcement learning, Value Function Approximation, Gradient Policy, Tile Coding, Neural Network
Publication language
English (en)