Оптимізація нейронної мережі алгоритму DeepStack для гри у Leduc Hold’em

Yaroslav Yuriiovych Dorogyi; Vasyl Vasylovych Tsurkan; Vladyslav Yuriiovych Lisoviy

doi:10.20535/2523-4455.2017.22.5.105016

PDF

Опубліковано: лис 6, 2017

DOI: https://doi.org/10.20535/2523-4455.2017.22.5.105016

Ключові слова:

нейронна мережа, покер, стратегія, контрфактичні значення, дерево передбачення

Yaroslav Yuriiovych Dorogyi

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

https://orcid.org/0000-0003-3848-9852

Vasyl Vasylovych Tsurkan

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

https://orcid.org/0000-0003-1352-042X

Vladyslav Yuriiovych Lisoviy

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

https://orcid.org/0000-0003-1694-8130

Анотація

В статті розглянуте питання реалізації нейронної мережі та підбору її структури, яка використовується в алгоритмі DeepStack. Наведений детальний опис алгоритму та принцип його роботи. Розглянутий алгоритм використовується для прийняття рішення під час гри в покер. Покер представлений як гра з неповною інформацією. Розрахунок стратегії відбувається на основі двох параметрів – контрфактичних значень опонента та діапазону гравця. Запропонована нейронна мережа використовується для розрахунку стратегії, а саме контрфактичних значень опонента. В якості нейронної мережі була вибрана мережа прямого розповсюдження. В якості даних для навчання використовувався набір вирішений покерних ситуацій, який включав в себе різні величини ставок та комбінації рук. Розглянуто декілька структур мереж та вибрана оптимальна. Критерієм вибору слугує оцінка вразливості стратегії.

Бібл. 13, рис. 9.

Як цитувати

[1]

Y. Y. Dorogyi, V. V. Tsurkan, і V. Y. Lisoviy, «Оптимізація нейронної мережі алгоритму DeepStack для гри у Leduc Hold’em», Мікросист., Електрон. та Акуст., т. 22, вип. 5, с. 63–72, Лис 2017.

Номер

Том 22 № 5 (2017)

Розділ

Телекомунікації та захист інформації

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:

Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).

Біографії авторів

Yaroslav Yuriiovych Dorogyi, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

доцент кафедри АУТС "КПІ ім. Ігоря Сікорського"

Vasyl Vasylovych Tsurkan, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

доцент кафедри ПСКЗ "КПІ ім. Ігоря Сікорського"

Vladyslav Yuriiovych Lisoviy, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

магістр кафедри АУТС "КПІ ім. Ігоря Сікорського"

Посилання

G. Vohl, B. Bošković and J. Brest, "A Rembrant Poker Bot Program," Elektrotehniški vestnik, vol. 79, no. 1-2, pp. 13-18, 2012. URL: http://ev.fe.uni-lj.si/1-2-2012/Vohl.pdf

G. Nicolai and R. J. Hilderman, "No-limit texas hold'em poker agents created with evolutionary neural networks," in Proceedings of the 5th international conference on Computational Intelligence and Games, Milano, Italy, 2009. ISBN: 978-1-4244-4814-2

P. McCurley, "An Artificial Intelligence Agent for Texas Hold’em Poker," 05 08 2009. [Online]. Available: http://poker-ai.org/archive/pokerai.org/public/aith.pdf.

M. Moravčík, M. Schmid, N. Burch, V. Lisý, D. Morrill, N. Bard, T. Davis, K. Waugh, M. Johanson and M. Bowling, "DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker," Science, vol. 356, no. 6337, pp. 508-513, 05 May 2017. DOI: 10.1126/science.aam6960

M. Zinkevich, M. Johanson, M. Bowling and C. Piccione, "Regret Minimization in Games with Incomplete Information," in Advances in Neural Information Processing Systems 20, Vancouver, 2007.

N. Burch, M. Johanson and M. Bowling, "Solving Imperfect Information Games Using Decomposition," in Twenty-Eighth AAAI Conference on Artificial Intelligence, Quеbec, 2014. URL: https://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/view/8407

F. Southey, M. Bowling, B. Larson, C. Piccione, N. Burch, D. Billings and C. Rayner, "Bayes' Bluff: Opponent Modelling in Poker," in Proceedings of the Twenty-First Conference Annual Conference on Uncertainty in Artificial Intelligence, Edinburgh, Scotland, UK, 2005. URL: https://dslpitt.org/papers/05/p550-southey.pdf

D. P. Kingma and J. Ba, "Adam: A Method for Stochastic Optimization," in 3rd International Conference for Learning Representations, San Diego, 2015. arXiv: 1412.6980v9

P. J. Huber, "Robust Estimation of a Location Parameter," The Annals of Mathematical Statistics, vol. 35, no. 1, pp. 73-101, 1964. URL: https://projecteuclid.org/download/pdf_1/euclid.aoms/1177703732

G. Walker, "Poker Winrates," 05 2017. [Online]. Available: http://www.thepokerbank.com/strategy/other/winrate.

M. Bowling, N. Burch, M. Johanson and O. Tammelin, "Heads-up limit hold’em poker is solved," Science, vol. 347, no. 6218, pp. 145-149, 09 January 2015. DOI: 10.1126/science.1259433

"DeepStack for Leduc Hold'em," 2017. [Online]. Available: https://github.com/lifrordi/DeepStack-Leduc.

X. Glorot, A. Bordes and Y. Bengio, "Deep Sparse Rectifier Neural Networks," in Fourteenth International Conference on Artificial Intelligence and Statistics, Ft. Lauderdale, FL, USA, 2011. URL: http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf

Бічна панель сторінки статті

Основний зміст сторінки статті

Анотація

Блок інформації про статтю

Yaroslav Yuriiovych Dorogyi, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Vasyl Vasylovych Tsurkan, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Vladyslav Yuriiovych Lisoviy, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Посилання