Facebook разработал еще один искусственный интеллект для игры в покер, на этот раз с использованием общей структуры, которая не сильно зависит от знаний предметной области. Рекурсивное обучение на основе убеждений (ReBel) вращается вокруг концепций «игрового состояния», оперируя двумя моделями ИИ, которые позволяют ему создавать «состояние общественного мнения», что, в свою очередь, дает ему возможность превосходить игроков-людей.
Как это работает
Как и многие другие системы искусственного интеллекта, ReBel также использует обучение с подкреплением, чтобы изучить игру как можно быстрее. Но в отличие от своих предшественников, ReBel реализует новые концепции, которые помогают ему выйти за рамки видимого и известного. Он обучает две модели искусственного интеллекта — одну для оценки ценности, другую для политики — а затем генерирует общественные убеждения, очень похожие на то, как игроки-люди расшифровывают то, что находится в сознании их оппонентов.
Таким образом, ReBel учитывает не только доступные данные, такие как карты, размер ставки или диапазон рук, он глубже копается в скрытой информации во время самостоятельной игры, а затем создает вспомогательную игру для изучения вероятностей и всех возможных действия противников, а также потенциальный исход каждой руки. Затем ReBel принимает решение по этим аспектам.
ReBel отличается от DeepMind AlphaZero тем, что не основывает свои решения на простых предположениях; скорее, он также принимает во внимание банк, фишки, а также убеждения и политику агента, которые помогают ему достичь определенного порога точности при принятии решения.
Испытания доказывают, что ReBel работает лучше, чем профи в покере
Чтобы проверить возможности ReBel, он был создан для игры против одного из лучших игроков в безлимитный холдем один на один, Донга Кима, а также с тремя другими высококвалифицированными игроками.
Эксперимент показал, что ReBel играл быстрее, чем его оппоненты-люди, и победил специалиста по хедз-апу Кима с общим счетом 165 тысячных большого блайнда со средним отклонением 69. ReBel также превзошел предыдущий покерный искусственный интеллект Facebook Libratus, набравший в среднем 147 очков в матче с лучшими игроками среди людей в 2017 году.
Также стоит отметить тот факт, что Libratus обыграла Кима всего на 29 тысячных большого блайнда во время своего пробного матча. ReBel опробовали в версиях холдема для двух игроков — лжеца в кости и тернового эндшпиля, и результаты были не менее впечатляющими.
Приложения будущего
Подход, используемый ReBel, позволил ему освоить игры с несовершенной информацией, что сделало его жизнеспособным эталоном для разработки будущих универсальных платформ, включающих многоагентное взаимодействие в больших условиях, например в области переговоров, аукционов, кибербезопасности и беспилотные грузовики и автомобили.
Поскольку он не сильно зависит от знания предметной области, его алгоритмы больше ориентированы на общее использование в случаях с менее заранее определенными факторами. Единственная проблема на данный момент заключается в том, что игроки могут использовать его как изощренный способ мошенничества при игре за столами. Facebook быстро решил эту проблему, заявив, что не выпустит кодовую базу ReBel для покера.
Вместо этого исследователи выбрали открытый исходный код для Liar’s Dice, который является гибким и легким для понимания, который также можно использовать в будущих исследованиях.
За последние несколько лет системы искусственного интеллекта внесли большой вклад в создание различных сложных игр. В 2017 году Libratus был разработан в Университете Карнеги-Меллона изначально для изучения покера, но его разработчики поставили перед собой цель использовать его в других ключевых областях, не связанных с покером, таких как медицинское планирование, кибербезопасность и деловые переговоры. ИИ победил четырех лучших профи в покере и всех их.
В 2019 году лаборатория искусственного интеллекта Facebook разработала еще один покерный искусственный интеллект под названием Pluribus в сотрудничестве с CMU. Когда он был протестирован, он смог превзойти шестерых игроков в традиционном безлимитном холдеме, что сделало его первым ботом, превзошедшим людей в многопользовательской игре. Он также был разработан с использованием алгоритмов самостоятельной игры. Среди его оппонентов среди людей был не кто иной, как шестикратный обладатель браслетов Мировой серии покера Крис Фергюсон.