Оптимізація нейронної мережі алгоритму DeepStack для гри у Leduc Hold’em
Основний зміст сторінки статті
Анотація
В статті розглянуте питання реалізації нейронної мережі та підбору її структури, яка використовується в алгоритмі DeepStack. Наведений детальний опис алгоритму та принцип його роботи. Розглянутий алгоритм використовується для прийняття рішення під час гри в покер. Покер представлений як гра з неповною інформацією. Розрахунок стратегії відбувається на основі двох параметрів – контрфактичних значень опонента та діапазону гравця. Запропонована нейронна мережа використовується для розрахунку стратегії, а саме контрфактичних значень опонента. В якості нейронної мережі була вибрана мережа прямого розповсюдження. В якості даних для навчання використовувався набір вирішений покерних ситуацій, який включав в себе різні величини ставок та комбінації рук. Розглянуто декілька структур мереж та вибрана оптимальна. Критерієм вибору слугує оцінка вразливості стратегії.
Бібл. 13, рис. 9.
Блок інформації про статтю
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).
Посилання
G. Vohl, B. Bošković and J. Brest, "A Rembrant Poker Bot Program," Elektrotehniški vestnik, vol. 79, no. 1-2, pp. 13-18, 2012. URL: http://ev.fe.uni-lj.si/1-2-2012/Vohl.pdf
G. Nicolai and R. J. Hilderman, "No-limit texas hold'em poker agents created with evolutionary neural networks," in Proceedings of the 5th international conference on Computational Intelligence and Games, Milano, Italy, 2009. ISBN: 978-1-4244-4814-2
P. McCurley, "An Artificial Intelligence Agent for Texas Hold’em Poker," 05 08 2009. [Online]. Available: http://poker-ai.org/archive/pokerai.org/public/aith.pdf.
M. Moravčík, M. Schmid, N. Burch, V. Lisý, D. Morrill, N. Bard, T. Davis, K. Waugh, M. Johanson and M. Bowling, "DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker," Science, vol. 356, no. 6337, pp. 508-513, 05 May 2017. DOI: 10.1126/science.aam6960
M. Zinkevich, M. Johanson, M. Bowling and C. Piccione, "Regret Minimization in Games with Incomplete Information," in Advances in Neural Information Processing Systems 20, Vancouver, 2007.
N. Burch, M. Johanson and M. Bowling, "Solving Imperfect Information Games Using Decomposition," in Twenty-Eighth AAAI Conference on Artificial Intelligence, Quеbec, 2014. URL: https://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/view/8407
F. Southey, M. Bowling, B. Larson, C. Piccione, N. Burch, D. Billings and C. Rayner, "Bayes' Bluff: Opponent Modelling in Poker," in Proceedings of the Twenty-First Conference Annual Conference on Uncertainty in Artificial Intelligence, Edinburgh, Scotland, UK, 2005. URL: https://dslpitt.org/papers/05/p550-southey.pdf
D. P. Kingma and J. Ba, "Adam: A Method for Stochastic Optimization," in 3rd International Conference for Learning Representations, San Diego, 2015. arXiv: 1412.6980v9
P. J. Huber, "Robust Estimation of a Location Parameter," The Annals of Mathematical Statistics, vol. 35, no. 1, pp. 73-101, 1964. URL: https://projecteuclid.org/download/pdf_1/euclid.aoms/1177703732
G. Walker, "Poker Winrates," 05 2017. [Online]. Available: http://www.thepokerbank.com/strategy/other/winrate.
M. Bowling, N. Burch, M. Johanson and O. Tammelin, "Heads-up limit hold’em poker is solved," Science, vol. 347, no. 6218, pp. 145-149, 09 January 2015. DOI: 10.1126/science.1259433
"DeepStack for Leduc Hold'em," 2017. [Online]. Available: https://github.com/lifrordi/DeepStack-Leduc.
X. Glorot, A. Bordes and Y. Bengio, "Deep Sparse Rectifier Neural Networks," in Fourteenth International Conference on Artificial Intelligence and Statistics, Ft. Lauderdale, FL, USA, 2011. URL: http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf