Klasiskās apmācības ar pastiprināšanu metodes nespēj veiksmīgi darboties reālos uzdevumos, kas var ietvert sevī nepārtrauktas stāvokļu un darbību telpas. Tā saucamie Value Function Approximation un Policy Gradient ļauj risināt minēto problēmu ar tabulveidīgās Q-funkcijas aizvietošanu vai izmantojot gradientu metodi. Tomēr „dimensijas lāsta” problēma vairākos gadījumos paliek atklāta. Šajā darbā tiek izvirzīta ideja, tiek stādīts priekšā algoritms un iegūtie rezultāti. Pamatideja ir daudzslāņu mākslīgo neironu tīklu izmantošana, lai aproksimētu tabulveidīgo Q-funkciju. Daži risinājumi tiek izstrādāti, lai padarītu algoritmu pielietojamu nepārtraukto mainīgo telpām.