Оптимізація нейронної мережі алгоритму DeepStack для гри у Leduc Hold’em

Yaroslav Yuriiovych Dorogyi, Vasyl Vasylovych Tsurkan, Vladyslav Yuriiovych Lisoviy

Анотація


В статті розглянуте питання реалізації нейронної мережі та підбору її структури, яка використовується в алгоритмі DeepStack. Наведений детальний опис алгоритму та принцип його роботи. Розглянутий алгоритм використовується для прийняття рішення під час гри в покер. Покер представлений як гра з неповною інформацією. Розрахунок стратегії відбувається на основі двох параметрів – контрфактичних значень опонента та діапазону гравця. Запропонована нейронна мережа використовується для розрахунку стратегії, а саме контрфактичних значень опонента. В якості нейронної мережі була вибрана мережа прямого розповсюдження. В якості даних для навчання використовувався набір вирішений покерних ситуацій, який включав в себе різні величини ставок та комбінації рук. Розглянуто декілька структур мереж та вибрана оптимальна. Критерієм вибору слугує оцінка вразливості стратегії.

Бібл. 13, рис. 9.


Ключові слова


нейронна мережа; покер; стратегія; контрфактичні значення; дерево передбачення

Повний текст:

PDF

Посилання


G. Vohl, B. Bošković and J. Brest, "A Rembrant Poker Bot Program," Elektrotehniški vestnik, vol. 79, no. 1-2, pp. 13-18, 2012. URL: http://ev.fe.uni-lj.si/1-2-2012/Vohl.pdf

G. Nicolai and R. J. Hilderman, "No-limit texas hold'em poker agents created with evolutionary neural networks," in Proceedings of the 5th international conference on Computational Intelligence and Games, Milano, Italy, 2009. ISBN: 978-1-4244-4814-2

P. McCurley, "An Artificial Intelligence Agent for Texas Hold’em Poker," 05 08 2009. [Online]. Available: http://poker-ai.org/archive/pokerai.org/public/aith.pdf.

M. Moravčík, M. Schmid, N. Burch, V. Lisý, D. Morrill, N. Bard, T. Davis, K. Waugh, M. Johanson and M. Bowling, "DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker," Science, vol. 356, no. 6337, pp. 508-513, 05 May 2017. DOI: 10.1126/science.aam6960

M. Zinkevich, M. Johanson, M. Bowling and C. Piccione, "Regret Minimization in Games with Incomplete Information," in Advances in Neural Information Processing Systems 20, Vancouver, 2007.

N. Burch, M. Johanson and M. Bowling, "Solving Imperfect Information Games Using Decomposition," in Twenty-Eighth AAAI Conference on Artificial Intelligence, Quеbec, 2014. URL: https://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/view/8407

F. Southey, M. Bowling, B. Larson, C. Piccione, N. Burch, D. Billings and C. Rayner, "Bayes' Bluff: Opponent Modelling in Poker," in Proceedings of the Twenty-First Conference Annual Conference on Uncertainty in Artificial Intelligence, Edinburgh, Scotland, UK, 2005. URL: https://dslpitt.org/papers/05/p550-southey.pdf

D. P. Kingma and J. Ba, "Adam: A Method for Stochastic Optimization," in 3rd International Conference for Learning Representations, San Diego, 2015. arXiv: 1412.6980v9

P. J. Huber, "Robust Estimation of a Location Parameter," The Annals of Mathematical Statistics, vol. 35, no. 1, pp. 73-101, 1964. URL: https://projecteuclid.org/download/pdf_1/euclid.aoms/1177703732

G. Walker, "Poker Winrates," 05 2017. [Online]. Available: http://www.thepokerbank.com/strategy/other/winrate.

M. Bowling, N. Burch, M. Johanson and O. Tammelin, "Heads-up limit hold’em poker is solved," Science, vol. 347, no. 6218, pp. 145-149, 09 January 2015. DOI: 10.1126/science.1259433

"DeepStack for Leduc Hold'em," 2017. [Online]. Available: https://github.com/lifrordi/DeepStack-Leduc.

X. Glorot, A. Bordes and Y. Bengio, "Deep Sparse Rectifier Neural Networks," in Fourteenth International Conference on Artificial Intelligence and Statistics, Ft. Lauderdale, FL, USA, 2011. URL: http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf




DOI: https://doi.org/10.20535/2523-4455.2017.22.5.105016

Посилання

  • Поки немає зовнішніх посилань.


Copyright (c) 2017 Дорогий Я. Ю., Цуркан В. В., Лісовий В. Ю.

Creative Commons License
Ця робота ліцензована Creative Commons Attribution 4.0 International License.

ISSN: 2523-4447
e-ISSN: 2523-4455