МЕТОД МОНТЕ-КАРЛО ТА ШТУЧНИЙ ІНТЕЛЕКТ: ВИКОРИСТАННЯ МЕТОДУ МОНТЕ-КАРЛО В НАВЧАННІ З ПІДКРІПЛЕННЯМ

Автор(и)

DOI:

https://doi.org/10.20998/2078-9130.2024.2.315342

Ключові слова:

навчання з підкріпленням, метод Монте-Карло, стани, модель, прийняття рішень, оптимальність, стратегія, вибірка, цінність, оцінка

Анотація

Навчання з підкріпленням - технологія, що найбільш швидко розвивається, застосовується при створенні штучні інтелектуальні системи. На даний момент ця галузь досить велика. Багато дослідників по всьому світу активно працюють з навчанням з підкріпленням у різноманітних галузях: нейробіологія, теорія управління, психологія та багато іншого. Метою даної є обґрунтування можливості застосування методу Монте-Карло в навчанні з підкріпленням. Відомо, що основним у такому навчанні є фіксація аспектів реальної проблеми при взаємодії того, хто навчається з навколишнім світом для досягнення своєї мети. Тобто агент навчання повинен мати мету, пов’язану зі станом навколишнього середовища. Також необхідно мати можливість відчувати середовище та вчиняти дії, що впливають на нього. Формулювання завдання навчання з підкріпленням має враховувати все три аспекти – відчуття, дія та мета – у їх найпростіших формах. Методи Монте-Карло здатні вирішити проблеми навчання із підкріпленням, ґрунтуючись на усередненні результатів вибірки. Щоб забезпечити доступність чітко визначених результатів, у статті розглядаються методи Монте-Карло лише епізодичних завдань. Таким чином, методи Монте-Карло можуть бути інкрементними лише на рівні епізодів.

 

Посилання

Sutton R., Barto A. Reinforcement Learning: An Introduction. MIT Press; second edition, 2018. 552 p. P. 115–124.

da Silva, W. B.; Dutra, J. C.; Knupp, D. C.; Abreu, L. A.; Silva Neto, A. J. Estimation of timewise varying boundary heat flux via Bayesian filters and Markov Chain Monte Carlo method. In Computational Intelligence in Emerging Technologies for Engineering Applications; Springer: Cham, Switzerland, 2020; pp. 137–153ttps://doi.org/10.1007/978-3-030-34409-2_8.

Andrade, J.; Duggan, J. An evaluation of Hamiltonian Monte Carlo performance to calibrate age-structured compartmental SEIR models to incidence data. Epidemics 2020, 33, 100415. ttps://doi.org/10.1016/j.epidem.2020.100415

Jin, Y. F.; Yin, Z. Y.; Zhou, W. H.; Horpibulsuk, S. Identifying parameters of advanced soil models using an enhanced transitional Markov chain Monte Carlo method. Acta Geotech. 2019, 14, 1925–1947. https://doi.org/10.1007/s11440-019-00847-1

Durmus, A.; Moulines, É.; Pereyra, M. A Proximal Markov Chain Monte Carlo Method for Bayesian Inference in Imaging Inverse Problems: When Langevin Meets Moreau. SIAM Rev. 2022, 64, 991–1028. https://doi.org/10.1137/22M1522917

Chollet, F. Deep learning with PYTHON. Second edition, M a n n i n g SHELTER ISLAND, 2021, P.504.

Subramanian, V. Deep Learning with PyTorch: A practical approach to building neural network models using PyTorch 1788626079, 9781788626071. Poct, 2018, P.262.

Hellweger V, Fischer J-T, Kofler A, Huber A, Fellin W, Oberguggenberger M (2016) Stochastic methods in operational avalanche simulation—from back calculation to prediction. In: Paper presented at the international snow science workshop 2016 proceedings, Colorado, USA

Pivoshenko V. V. Analiz ta eksperymentalne doslidzhennia metodu bezmodelnoho navchannia z pidkriplenniam / V. V. Pivoshenko, M. S. Kulyk, Yu. Yu. vanov, A. S. Vasiura // Visnyk Vinnytskoho politekhnichnoho instytutu. 2019. № 3. рр. 40-49.

W. Haskell, and W. Huang, "Stochastic Approximation for Risk-Aware Markov Decision Processes", Arxiv.org, 2018. [Electronic resource]. Available: https://arxiv.org/pdf/1805.04238.pdf.

J. Dornheim, N. Link, and P. Gumbsch, “Model-Free Adaptive Optimal Control of Sequential Manufacturing Processes Using Reinforcement Learning,” arXiv.org, 2019. [Electronic resource]. Available: https://arxiv.org/abs/1809.06646v1

M. Lapan Deep Reinforcement Learning Hands-On, Packt Publishing Ltd, 2020, 716 p.

Marc J Bellemare, Will Dabney, Mark Rowland Distributional reinforcement learning, MIT Press, 2023. https://doi.org/10.7551/mitpress/14207.001.0001

Kayakökü, Hakan & Guzel, Mehmet & Bostanci, Gazi Erkan & Medeni, Ihsan & Mishra, Deepti. (2021). A Novel Behavioral Strategy for RoboCode Platform Based on Deep Q-Learning. Complexity. 2021. pp. 1- https://doi.org/10.1155/2021/9963018

J. Dornheim, N. Link, and P. Gumbsch, “Model-Free Adaptive Optimal Control of Sequential Manufacturing Processes Using Reinforcement Learning,” arXiv.org, 2019. [Electronic resource]. Available: https://arxiv.org/abs/1809.06646v1

##submission.downloads##

Опубліковано

2024-12-24