Математическая модель игры.

В математических обозначениях «максимин для А» выражается mахiminj aij, аналогично, «минимакс для В» есть minjmахi aij, причем, очевидно, имеет место mахi minj aij £ minjmахiaij. В случае, когда имеет место равенство, т.е. mахi minj aij = minjmахi aij =аi0j0, соответствующие чистые стратегии (i0 для игрока А и j0 для В) будут оптимальными, а про игру говорят, что она имеет седловую точку. Тогда аi0j0 является значением игры. Легко видеть, что игра имеет седловую точку тогда и только тогда, когда в платежной матрице имеется элемент аi0j0, наименьший для всех элементов своей строки i0 и наибольший для всех элементов своего столбца j0.

При отсутствии седловой точки невозможно получить оптимальное решение, пользуясь чистыми стратегиями. В этом случае для получения решения игры будем пользоваться смешанными стратегиями, которые заключаются в применении чистых стратегий с некоторыми частотами (вероятностями). Пусть р1, р2,.., рn и q1,q2,..,qm – наборы вероятностей, с которыми игроки А и В соответственно выбирают свои чистые стратегии. Естественно

=1, рi , qj ≥0 для всех i и j.

Если игрок А выбирает свои чистые стратегии с вероятностями рi, то его ожидаемый выигрыш должен составить

a11р1+ a21р2+…+ an1рn ,

при ответном выборе игроком В своей первой чистой стратегии,

a12р1+ a22р2+…+ an2рn ,

при ответном выборе игроком В своей второй чистой стратегии, и т.д.

a1mр1+ a2mр2+…+ anmрn

при выборе игроком В m-й чистой стратегии. С другой стороны, если игрок В выбирает свои чистые стратегии с вероятностями qj, то его ожидаемый проигрыш должен составить

a11q1+ a12q2+…+ a1mqm ,

если игрок A выберет свою первую чистую стратегию, и т.д.

an1q1+ an2q2+…+ anmqm,

при выборе игроком A n-й чистой стратегии.

Если игрок А выбрал стратегию (р1,р2,..,рn) и при этом игрок В выбрал (q1,q2,..,qm), то ожидаемый выигрыш игрока А (он же проигрыш игрока В) составит

g= .

Тогда игрок А при выборе рi стремится максимизировать свой наименьший ожидаемый выигрыш по столбцам, тогда как игрок В выбирает qj с целью минимизировать наибольший ожидаемый проигрыш по строкам. Справедлива теорема фон.Неймана, которую мы примем без доказательств, утверждающая, что для любой конечной игры существуют оптимальные стратегии игроков А (р1*,р2*,..,рn*) и В (q1*,q2*,..,qm*), при этом максимум наименьшего ожидаемого выигрыша игрока А совпадает с минимумом наибольшего ожидаемого проигрыша игрока В (обозначим это значение игры через g). Таким образом, математическую модель конечной игры для игрока А можно представить в следующем виде:

Найти такие рi ≥0, для которых выполняются соотношения

р1+р2+…+рn=1,

a11р1+ a21р2+…+ an1рn ≥ g,

a12р1+a22р2+…+an2рn≥g, (1)

……………………. ……

a1mр1+ a2mр2+…+ anmрn≥ g,

и функция Z=g принимает максимальное значение.

Упростим полученную задачу, разделив все ограничения (1) на значение игры g > 0 и положив хi =рi/g для всех i. (Проведение аналогичных рассуждений для случая g ≤ 0 предоставляется читателю). В силу того, что

max g =min 1/g = min(р1/g+р2/g+…+рn/g) = min(x1+x2+…+xn)

задача принимает вид

минимизировать Z= x1+x2+…+xn

при ограничениях

a11x1+a21x2+…+an1xn ≥ 1,

a12x1+a22x2+…+an2xn ≥ 1, (2)

……………………. ……

a1mx1+a2mx2+…+ anmxn≥ 1,

x1, x2,…,xn ≥ 0.

Мы получили задачу линейного программирования (Приложение).

Обратите внимание: строка ограничения формируется из столбца платежной матрицы!

Решая ее (например, симплекс–методом), находим оптимальное решение x1*, x2*,…,xn*, откуда, разделив на Z*=x1*+x2*+…+xn*, получаем оптимальную стратегию для игрока А (р1*,р2*,..,рn*), которая заключается в применении i-й чистой стратегии с частотой рi*= хi*/ Z*.

Двойственная ЗЛП – максимизировать F=y1+y2++ym→max;

при ограничениях

a11y1+ a12y2+ …+ a1mym ≤1;

a21y1+ a22y2+ …+ a2mym ≤1; (3)

…………………………..

an1y1+ an2y2+ …+ anmym ≤1;

y1≥0; y2≥0; … ym ≥0.

Здесь строка ограничения формируется из строки платежной матрицы.

Решая данную ЗЛП, находим оптимальное решение у1*, у2*,…,уm*, откуда, разделив на F*=y1*+y2*+…+ym*, получаем оптимальную стратегию для игрока B (q1*, q2*,.., qm*), которая заключается в применении j-й чистой стратегии с частотой qj* = yj*/ F*.

Затем находим цену игры g =1/Z*=1/F*.

Правила упрощения платежной матрицы:

Если к каждому элементу платежной матрицы прибавить одно и то же число, то решение (р1*,р2*,..,рm*) не изменится, а цена игры изменится ровно на добавленную величину.

Если каждый элемент платежной матрицы умножить на одно и то же число (не 0), то решение (р1*,р2*,..,рm*) не изменится, а цена игры изменится ровно во столько же раз.

Если какая-либо строка платежной матрицы доминирует над другой строкой (или линейной комбинацией строк), то доминируемые строки не войдут в оптимальную смешанную стратегию и их можно удалить.

Из двух стратегий та "лучше" (доминирует), которая гарантирует больший выигрыш независимо от действий противника (исходов). Ясно, что доминирующая над всеми строка, если она существует, будет являться чистой оптимальной стратегией первого игрока. Однако, в общем случае, строки, доминирующей над всеми другими строками, может и не существовать.

Проиллюстрируем использование рассмотренных методов при описании и решении некоторых состязательных задач.

Пример 1. Рассмотрим тотализатор на ипподроме. Пусть выплаты в случае победы одной из трех лошадей относятся к ставке как 1:1, 3:1 и 4:1. Тогда платежная матрица игрока на скачках примет вид:

1 –1 –1 Если прибавить к каждому элементу матрицы число К, то

А=–1 3 –1 оптимальные стратегии не изменятся, а значение игры

–1 –1 4 увеличится на К. Для упрощения матрицы добавим

К=1, тогда получим:

2 0 0 В соответствие с (2) задача принимает вид:

А= 0 4 0 минимизировать Z= x1+x2+x3

0 0 5 при ограничениях

2x1+ 0x2+0x3 ≥ 1,

0x1+ 4x2+0x3 ≥ 1,

0x1+ 0x2+5x3≥ 1,

x1, x2,x3 ≥ 0.

Легко заметить, что решение этой задачи:

x1*=1/2, x2*=1/4, x3* =1/5.

Значение упрощенной игры 1/Z*=1/(x1*+x2*+x3*)=20/19, откуда (при К=1) значение исходной игры равно 20/19 – 1 = 1/19,

р1*=х1*/Z*=10/19, р2*=х2*/Z*=5/19, р3*=х3*/Z*=4/19.

Таким образом, оптимальная стратегия игрока на скачках в данном примере заключается в смешанной стратегии делать ставки на всех трех лошадей в пропорции 10:5:4, при этом выигрыш игрока (игра имеет положительное значение!) будет равным 1/19 суммы его ставок, независимо от результата гонок. (Если цена игры отрицательна, то не следует в нее играть, так как даже при оптимальной стратегии гарантирован проигрыш, правда, минимальный).

Пример 2. Предлагается три варианта инвестиций в сельское хозяйство и прогноз получения доходов за год (дивиденды и повышение стоимости капитала) при различных перспективах на урожай.

Варианты инвестиций Перспективы на урожай
хорошие средние плохие
1. АО «Сельхозтехника»
2. АО «Агроимпорт»
3. АО «Агроэкспорт» –50

Доходы в платежной матрице приведены в процентах от вложенного капитала. Как распорядиться капиталом, чтобы получить наибольший доход? Искомые переменные р1, р2, р3 определяют пропорции вложений. Заметим, что элементы первой строки платежной матрицы меньше средних арифметических соответствующих элементов второй и третьей строк, и она может быть удалена (первый вариант инвестиций заведомо неэффективен по сравнению с комбинацией второго и третьего вариантов – вкладывать деньги поровну во второй и третий проект). Получаем задачу линейного программирования

минимизировать Z= x2+x3

при ограничениях

 
 


0x2 + 150x3 ≥ 1,

100x2+50x3 ≥ 1,

250x2 – 50x3≥ 1,

x1=0, x2, x3 ≥ 0.

Решая данную задачу стандартными средствами (см. Приложение 1) получим следующее решение

x1*=0, x2*=1/150, x3* =1/150.

Значение игры 1/Z*=1/( x1*+x2*+x3*)=150/2=75, откуда

р1*=0, р2*=х2*/Z*=75/150=1/2, р3*=х3*/Z*=75/150=1/2.

Таким образом, оптимальной стратегией является вложение капитала равными долями во второй и третий варианты, при этом гарантированный доход составит 75%.