Оптимізація нейронної мережі алгоритму DeepStack для гри у Leduc Hold’em

Основний зміст сторінки статті

Yaroslav Yuriiovych Dorogyi
https://orcid.org/0000-0003-3848-9852
Vasyl Vasylovych Tsurkan
https://orcid.org/0000-0003-1352-042X
Vladyslav Yuriiovych Lisoviy
https://orcid.org/0000-0003-1694-8130

Анотація

В статті розглянуте питання реалізації нейронної мережі та підбору її структури, яка використовується в алгоритмі DeepStack. Наведений детальний опис алгоритму та принцип його роботи. Розглянутий алгоритм використовується для прийняття рішення під час гри в покер. Покер представлений як гра з неповною інформацією. Розрахунок стратегії відбувається на основі двох параметрів – контрфактичних значень опонента та діапазону гравця. Запропонована нейронна мережа використовується для розрахунку стратегії, а саме контрфактичних значень опонента. В якості нейронної мережі була вибрана мережа прямого розповсюдження. В якості даних для навчання використовувався набір вирішений покерних ситуацій, який включав в себе різні величини ставок та комбінації рук. Розглянуто декілька структур мереж та вибрана оптимальна. Критерієм вибору слугує оцінка вразливості стратегії.

Бібл. 13, рис. 9.

Блок інформації про статтю

Як цитувати
[1]
Y. Y. Dorogyi, V. V. Tsurkan, і V. Y. Lisoviy, «Оптимізація нейронної мережі алгоритму DeepStack для гри у Leduc Hold’em», Мікросист., Електрон. та Акуст., т. 22, вип. 5, с. 63–72, Лис 2017.
Розділ
Телекомунікації та захист інформації
Біографії авторів

Yaroslav Yuriiovych Dorogyi, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

доцент кафедри АУТС "КПІ ім. Ігоря Сікорського"

Vasyl Vasylovych Tsurkan, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

доцент кафедри ПСКЗ "КПІ ім. Ігоря Сікорського"

Vladyslav Yuriiovych Lisoviy, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

магістр кафедри АУТС "КПІ ім. Ігоря Сікорського"

Посилання

G. Vohl, B. Bošković and J. Brest, "A Rembrant Poker Bot Program," Elektrotehniški vestnik, vol. 79, no. 1-2, pp. 13-18, 2012. URL: http://ev.fe.uni-lj.si/1-2-2012/Vohl.pdf

G. Nicolai and R. J. Hilderman, "No-limit texas hold'em poker agents created with evolutionary neural networks," in Proceedings of the 5th international conference on Computational Intelligence and Games, Milano, Italy, 2009. ISBN: 978-1-4244-4814-2

P. McCurley, "An Artificial Intelligence Agent for Texas Hold’em Poker," 05 08 2009. [Online]. Available: http://poker-ai.org/archive/pokerai.org/public/aith.pdf.

M. Moravčík, M. Schmid, N. Burch, V. Lisý, D. Morrill, N. Bard, T. Davis, K. Waugh, M. Johanson and M. Bowling, "DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker," Science, vol. 356, no. 6337, pp. 508-513, 05 May 2017. DOI: 10.1126/science.aam6960

M. Zinkevich, M. Johanson, M. Bowling and C. Piccione, "Regret Minimization in Games with Incomplete Information," in Advances in Neural Information Processing Systems 20, Vancouver, 2007.

N. Burch, M. Johanson and M. Bowling, "Solving Imperfect Information Games Using Decomposition," in Twenty-Eighth AAAI Conference on Artificial Intelligence, Quеbec, 2014. URL: https://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/view/8407

F. Southey, M. Bowling, B. Larson, C. Piccione, N. Burch, D. Billings and C. Rayner, "Bayes' Bluff: Opponent Modelling in Poker," in Proceedings of the Twenty-First Conference Annual Conference on Uncertainty in Artificial Intelligence, Edinburgh, Scotland, UK, 2005. URL: https://dslpitt.org/papers/05/p550-southey.pdf

D. P. Kingma and J. Ba, "Adam: A Method for Stochastic Optimization," in 3rd International Conference for Learning Representations, San Diego, 2015. arXiv: 1412.6980v9

P. J. Huber, "Robust Estimation of a Location Parameter," The Annals of Mathematical Statistics, vol. 35, no. 1, pp. 73-101, 1964. URL: https://projecteuclid.org/download/pdf_1/euclid.aoms/1177703732

G. Walker, "Poker Winrates," 05 2017. [Online]. Available: http://www.thepokerbank.com/strategy/other/winrate.

M. Bowling, N. Burch, M. Johanson and O. Tammelin, "Heads-up limit hold’em poker is solved," Science, vol. 347, no. 6218, pp. 145-149, 09 January 2015. DOI: 10.1126/science.1259433

"DeepStack for Leduc Hold'em," 2017. [Online]. Available: https://github.com/lifrordi/DeepStack-Leduc.

X. Glorot, A. Bordes and Y. Bengio, "Deep Sparse Rectifier Neural Networks," in Fourteenth International Conference on Artificial Intelligence and Statistics, Ft. Lauderdale, FL, USA, 2011. URL: http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf