<<
>>

ДИЛЕММА ЗАКЛЮЧЕННОГО Анатоль Рапопорт Prisoner's Dilemma Anatol Kapoport

Игра, названная А. Таккером «дилеммой заключенного», безусловно, привлекла широкоегвгоШанйе по той причине, что она вызвала сомнения в универсальной применимости так называемого принципа обеспеченного успеха (Sure-ting Principle) как принципа принятия рациональных решений. Эту игру можно проиллюстрировать следующей ситуацией.
Два человека пойманы с крадеными вещами, они подозреваются в краже со взломом, но для вынесения приговора по этому преступлению нет достаточных оснований, если один из них или оба не признаются. Однако им можно вынести приговор за хранение краденого, что является менее серьезным нарушением закона. Заключенным не разрешается общаться друг с другом. Ситуация объясняется каждому из них отдельно. Если оба признаются, то обоим выносится приговор за кражу со взломом и они приговариваются к двум годам тюрьмы. Если никто из них не признается, то обоим выносится приговор за хранение краденого и они получат по шесть месяцев тюрьмы. Если только один из них признается, то он не будет наказан, в то время как другому выносится приговор на основании свидетельских показаний напарника и он получает максимальное наказание — пять лет тюрьмы. В интересах каждого из заключенных признаться в содеянном. Ведь если его напарник признается, это закончится двухлетним заключением, в то время как непризнание приведет к пятилетнему сроку. Если же напарник не признается то непризнание ведет к шестимесячному заключению, в то время как признание дает свободу. Таким образом, «признание» является доминирующей стратегией, т.е. такой, которая приносит более предпочтительный результат независимо от стратегии, использованной партнером. Можно сказать, что выбор доминирующей стратегии диктуется «принципом обеспеченного успеха». Тем не менее, если оба участника, ведомые «принципом обеспеченного успеха», сознаются, то оба они окажутся в худшем положении (с двухлетним сроком заключения), чем если бы оба они не сознались и получили шестимесячный срок. В указанном смысле «дилемма заключенного» может рассматриваться как иллjpcтpJщ.ия расхождения между индивидуалшой^иколлектив-ной рациональностьюГГётцёнияТ ГОторТ5е"ямяются рациональными с 707 точки зрения каждого индивида, могут быть ущербными с точки зрения обоих или, в более общем случае, всех индивидов в ситуациях, где решение каждого участника влияет на положение всех. Обобщенная для случая более двух участников (игроков), «дилемма заключенного» становится вариантом так называемой «общинной трагедии» (Tragedy of the Commons) (Hardin, 1968).
В интересах каждого отдельного фермера добавить еще одну корову к своему стаду, пасущемуся на общественном пастбище. Но если каждый фермер будет следовать своим индивидуальным интересам, то пастбище может быть «перегружено», от чего проиграют все. Чрезмерные уловы каждой стремящейся к выгоде страны, занимающейся коммерческим рыболовством, — по существу, «общинная трагедия» в современном виде. Многие ситуации в обществе характеризуются аналогичным расхождением между решениями, диктуемыми индивидуальной и коллективной рациональностью. Известные примеры дают ценовые войны и гонка вооружений. В контексте «дилеммы заключенного» непризнание должно считаться кооперативной стратегией (конечно, с партнером, а не с властями), а признание — некооперативной, или «изменой». Поскольку требования индивидуальной и коллективной рациональности противоречат друг другу, нормативная теория принятия решений в ситуациях подобного типа становится неоднозначной. Естественно, усилия исследователей обращаются на проблему создания дескриптивной теории, нацеленной на описание (и, если возможно, предсказание) того, как люди, встретившиеся с дилеммами подобного типа, действительно принимают решения при тех или иных обстоятельствах. По мере того как в 1950-е годы быстро развивалась экспериментальная социальная психология, «дилемма заключенного» стала любимым экспериментальным инструментом исследователей. Она дала им возможность собирать большие массивы данных при сравнительно небольших усилиях. Кроме того, все эти данные «надежны», поскольку дихотомия между выбором кооперативной стратегии в «дилемме заключенного» (С) и отказом от нее (V) однозначна. Частоты выбора этих альтернатив стали главными зависимыми переменными в экспериментах, в которых следовало выбрать между действиями в индивидуальных или коллективных интересах. Независимые переменные включают индивидуальные характеристики игроков (пол, род занятий, национальность, тип личности), условия, в которых решения были приняты (предшествующий опыт, возможности для коммуникации), характеристики поведения партнера, связанные с исходами игры платежи, и т.п.
(см.: Rapoport, Guyer and Gordon, 1976, chs. 9, 15, 18, 19). «Дилемма заключенного» в исследованиях обычно представляется в форме матрицы 2x2, строки которой С, и Dx представляют возможные решения первого игрока, а столбцы С2 и D2 — возможные решения второго. Решения игроков обычно принимаются независимо друг от друга. Таким образом, четыре ячейки матрицы соответствуют четырем возможным результатам игры: С,С2, CXD2, DXC2 и DXD2. Каждая ячейка содержит два числа, первое из которых показывает платеж 708 «Строке», т.е. игроку, выбирающему между С, и Dv а второе — платеж «Столбцу» т.е. игроку, который выбирает между С2 и D2. Величины платежей таковы, что стратегия (выбор) D каждого игрока доминирует над стратегией С. Проблема выбора решения видится как дилемма, поскольку оба игрока предпочитают результат С, С2 результату DXD2; но выбор стратегии С означает отказ от возможного получения преимущества над другим игроком, если бы он выбрал С, или получения наихудшего из четырех платежей, если соперник выберет D. Эксперименты обычно проводятся в одном из трех форматов: 1) единственная игра, где каждый игрок принимает только одно решение; 2) повторяющаяся игра, в которой пара игроков последовательно принимает несколько одновременных решений; 3) повторяющаяся игра против «запрограммированного» игрока, где решения партнера данного субъекта являются заданными и обычно зависят от решений самого субъекта. Цель единственной игры — в том, чтобы увидеть, как делают выбор различные субъекты, когда отсутствует возможность взаимодействия с другим игроком. Цель повторяющейся игры с двумя реальными субъектами — в изучении эффектов взаимовлияния между последовательными выборами. Цель игры против запрограммированного игрока — в том, чтобы увидеть, как различные (управляемые) стратегии повторяющихся игр влияют на поведение субъекта, будет ли, например, игрок отвечать на сотрудничество тем же или эксплуатировать его, является ли наказание за «измену» средством сдерживания и т.п. Расширенный обзор экспериментов с запрограммированным игроком приведен в работе Оскампа (Oskamp, 1971). Выводы, полученные на основе экспериментов с «дилеммой заключенного», представляют различный интерес.
Некоторые из них лишь подтверждают ожидания, вытекающие из здравого смысла. Например, частота выбора кооперативной стратегии в повторяющихся играх изменяется, как и ожидается, в зависимости от платежей, связанных с исходами игры. Чем больше вознаграждение, связанное с обоюдным сотрудничеством, и чем больше наказание, связанное с двойной «изменой», тем чаще наблюдается выбор кооперативной стратегии. Чем больше потери, связанные с отвергнутым сотрудничеством, тем более распространены «измены», и т.д. Как и ожидалось, возможность общаться с партнером делает сотрудничество более частым, а конкурентная ориентация субъектов затрудняет его. Больший интерес представляет динамика повторяющейся игры. Обычно частота выбора кооперативной стратегии, усредненная по большому числу субъектов, сначала убывает, отражая разочарование неудачными попытками установить сотрудничество. Если игра продолжается достаточно долго, то средняя частота кооперативной стратегии в конечном счете увеличивается, отражая установление молчаливого соглашения между игроками. Полученная асимптотическая частота кооперативной стратегии представляет собой только среднее значение, но 709 не моду распределения. Обычно игроки приходят либо к исходу С, С2 либо к исходу DXD2 (Rapoport and Chammah, 1965). Бимодальность наблюдается и в повторяющихся играх против запрограммированного игрока, который «настроен» на кооперативную стратегию. Приблизительно половина наблюдаемых субъектов «отвечает» на это сотрудничество тем же, в то время как другая половина пытается его использовать с целью получения максимального платежа. Сравнение результатов различных программируемых стратегий в повторяющейся игре показало, что так называемая стратегия взаимности «как ты мне, так и я тебе» (tit for tat) оказалась наиболее эффективной для установления сотрудничества между субъектами. Эта стратегия начинает с выбора С и далее повторяет выбор партнера в предшествующей игре. Некоторый психологический интерес содержится в наблюдении, что субъекты почти никогда не знают, что они на самом деле играют против своего собственного зеркального отражения с отставанием на одну игру.
В некотором смысле этот факт демонстрирует, как трудно признать, что поведение других по отношению к тебе может быть в значительной степени отражением твоего поведения по отношению к ним. Следствием этого непонимания может быть, например, эскалация взаимной враждебности в различных ситуациях. Возможно, наиболее интересный результат экспериментов с повторяющейся игрой в рамках «дилеммы заключенного» состоит в том, что, даже если количество повторений игры известно обоим субъектам, тем не менее, часто достигается неявное соглашение о сотрудничестве. Это наблюдение интересно тем, что оно иллюстрирует недостаточность рекомендаций, базирующихся на абсолютно строгих стратегических рассуждениях. На первый взгляд, неявное соглашение рационально для повторяющейся игры, поскольку «измена», как можно предположить, вызовет ответную «враждебную позицию» в целях «самозащиты», поскольку другой игрок стремится избежать наихудшего исхода, связанного с предложенным, но отвергнутым сотрудничеством. Тем не менее, этот аргумент не относится к игре, о которой известно, что она последняя, поскольку за ней не может последовать расплата. Таким образом, D доминирует над С в последней игре, и согласно «принципу обеспеченного успеха» результат DlD2 является предопределенным. Это переключает внимание на игру, предшествующую последней, которая теперь, по сути, сама есть «последняя игра» и к которой теперь может быть применена та же аргументация. И так далее. Таким образом, строгий стратегический анализ показывает, что стратегия, состоящая из D для всех повторений игры, — единственно рациональная независимо от числа повторений. Индукция «от конца» не может быть проведена, если количество повторений бесконечно, неизвестно или определено стохастически. В таких случаях, если вероятность завершения игры не слишком велика, индивидуальная рациональность не обязательно диктует 100%-е использование стратегии D. Естественно, возникает вопрос о сравнительных достоинствах различных стратегий в повторяющейся игре типа 770 «дилеммы заключенного».
Этот вопрос рассмотрен эмпирически в работе Аксельрода (Axelrod, 1984). Лиц, заинтересованных в этой проблеме, попросили представить программы для проведения 200-шаговой игры типа «дилеммы заключенного». Каждая программа должна была «сыграть» с каждой другой представленной программой, включая саму себя. Программа с самой большой суммой полученных платежей объявлялась победителем конкурса. Было предложено 15 программ, и среди них — программа со стратегией «взаимности» (tit for tat). Она и получила самую высокую оценку. Был объявлен второй конкурс, на этот раз со стохастическим завершением, при ожидаемом числе итераций около 150. Одновременно с приглашением к участию во втором конкурсе были оглашены результаты первого конкурса вместе с полными описаниями представленных программ. На этот раз было подано 63 программы из шести стран. Программа со стратегией «взаимности» вновь была среди них (предложенная тем же конкурсантом и никем другим), и она снова получила самую высокую оценку. Интересная особенность этого результата состояла в том, что выигравшая стратегия не «победила» ни одну программу, против которой она играла. Действительно, она не может победить ни одну программу, поскольку единственный путь получить более высокую оценку, чем партнер, состоит в применении большего, чем он, числа стратегий D, чего, по определению, стратегия «взаимности» не может сделать. Она может только сыграть вничью либо проиграть, но не более чем одну игру. Из этого следует, что стратегия «взаимности» получила самую высокую оценку, потому что другие программы, очевидно, разработанные так, чтобы победить своих оппонентов, каждый раз сокращали выигрыш обоих партнеров, включая свой собственный. Результаты этих конкурсов могут быть проинтерпретированы как дальнейшее подтверждение ущербности стратегий, базирующихся на попытках увеличивать индивидуальные выигрыши в ситуациях, где возможны как кооперативные, так и конкурентные стратегии. Кроме того, преимущество кооперативных стратегий не обязательно зависит от наличия возможностей для явных соглашений. Поддержка последнего вывода пришла из такого отчасти неожиданного источника, как приложения игровых концепций в теории эволюции (Maynard Smith, 1982; Rapoport, 1985). До недавних пор игровыми моделями, использовавшимися в теоретической биологии, были так называемые игры против природы (см., например, работу: Lewontin, 1961). «Выбор стратегии» был представлен появлением определенного генотипа в популяции, живущей в стохастической среде. Степень адаптации к среде выражалась в относительном воспроизводственном успехе данного генотипа, т.е. статистически ожидаемой численности потомства, доживающего до репродуктивного возраста. В данном случае популяция эволюционировала к наилучшим образом приспособленному генотипу. В этой модели адаптация зависит только от вероятностного распределения наблюдаемых состояний природы (например, влажные или 711 сухие сезоны), но не от доли популяции, которая приняла данную стратегию. Когда эта зависимость вводится, модель становится действительно игровой с более чем одним настоящим игроком. Модель, описанная в виде «дилеммы заключенного», появилась в теоретической биологии в связи с борьбой между особями одного и того же вида, например, за самок или за территорию. Предположив для простоты наличие двух способов борьбы, «жесткого» и «мягкого», можно, изучая вероятный результат эволюции, увидеть связь с «дилеммой заключенного». В столкновении между «жесткой» и «мягкой» особями первая выигрывает, а вторая — проигрывает. Тем не менее, столкновение между двумя «жесткими» особями может вызвать более серьезный ущерб для обеих, чем столкновение между двумя «мягкими» противниками. При соответствующем ранговом упорядочении платежей (относительных воспроизводственных успехов) модель становится «дилеммой заключенного». Развитие несмертельных орудий борьбы, таких, как, например, загнутые назад рога, или поведенческие ограничения, возможно, были результатом естественного отбора, благодаря которому смертельные поединки между особями одного и того же вида становились редкими. Повторяющиеся схватки предполагают сравнение эффективности стратегий в повторяющейся игре. Мейнард Смит и Прайс (Maynard Smith and Price, 1973) наблюдали компьютерно имитируемую популяцию в повторяющейся игре типа «дилеммы заключенного» при использовании игроками различных стратегий, где платежами были дифференцированные коэффициенты воспроизводства игроков, использующих соответствующие стратегии. Таким образом, происходило наблюдение за эволюцией данной популяции. В конечном счете отвечающие взаимностью, т.е., по существу, игроки со стратегией «как ты мне, так и я тебе», стали отчетливо преобладать. Центральным понятием в игровых моделях эволюции является «эво-люционно стабильная стратегия» (ЭСС). Она стабильна в том смысле, что популяция, состоящая из генотипов, применяющих данную стратегию, не может быть «завоевана» изолированными мутантами или мигрантами, поскольку такие «захватчики» не должны иметь «воспроизводственного успеха». С помощью компьютерного моделирования было показано, что популяция, поведение которой описывается программами, представленными на вышеупомянутый конкурс, эволюционирует к стратегии «взаимности». Тем не менее, впоследствии было показано и то, что стратегия «взаимности» не является во всех случаях эволюционно стабильной. В итоге большой интерес к «дилемме заключенного» среди специалистов по теории поведения и в последнее время среди многих биологов может быть отнесен на счет новых идей, порожденных на основе анализа этой игры и результатов экспериментов с ней. Различные рекомендации относительно решений, базирующихся на индивидуальной и коллективной рациональности в некоторых конфликтных ситуациях, порождают сомнения в том, что простое определение «рациональности» как эффективной максимизации чьих-либо ожидаемых выгод 712 имеет смысл. Именно такое определение подразумевается во всех формах стратегического мышления, особенно в экономической, политической и военной областях. Модели, производные от «дилеммы заключенного», указывают на явное опровержение основного предположения классической экономической теории, согласно которому стремление участников к собственной выгоде в условиях свободной конкуренции приводит к оптимальному для них состоянию равновесия. Эти модели также отражают ошибочность ориентации на наиболее неблагоприятный исход в конфликтных ситуациях. Эта предпосылка полностью оправдана в случае игры двух лиц с нулевой суммой, но не в более общих формах конфликта, где интересы участников частично противоположны, а частично совпадают. Большинство конфликтов за пределами чисто военной сферы относятся именно к этому типу. Наконец, «дилемма заключенного» и ее обобщение, «трагедия общины», обеспечивают строгое обоснование категорического императива Канта: поступай так, как ты желаешь, чтобы поступали другие. Следование этому принципу отражает нечто большее, чем альтруизм. Оно отражает такую форму рациональности, которая принимает во внимание то обстоятельство, что эффективность стратегии может критически зависеть от того, насколько другие ее принимают, и то, что первоначально успешная стратегия может нанести поражение себе самой, поскольку ее успех заставляет других ее имитировать. Таким образом, «изменники» в «дилемме заключенного» могут вначале иметь успех в популяции тех, кто придерживается кооперативной стратегии. Но если этот успех ведет к увеличению числа первых и уменьшению числа вторых, то он обращается в неудачу. Подобное рассуждение имеет очевидное отношение к многим формам человеческих конфликтов. БИБЛИОГРАФИЯ Axelrod, R. 1984. The Evolution of Cooperation. New York: Basic Books. Hardin, G. 1968. The Tragedy of the Commons. Science 162,1243-8. Lewontin, R.C. 1961. Evolution and the theory of games. Journal of Theoretical Biology 1, 382-403. Maynard Smith, J. 1982. Evolution and the Theory of Games. Cambridge: Cambridge University Press. Maynard Smith, J. and Price, G.R. 1973. The logic of animal conflict. Nature 246, 15-18. Oskamp, S. 1971. Effects of programmed strategies on cooperation in the Prisoner's Dilemma and other mixed-motive games. Journal of Conflict Resolution 15, 225-59. Rapoport, A. 1985. Applications of game-theoretic concepts in biology. Bulletin of Mathematical Biology 47, 161-92. Rapoport, A. and Chammah, AM. 1965. Prisoner's Dilemma. Ann Arbor: University of Michigan Press. Rapoport, A., Guyer, M. and Gordon, D. 1976. The 2x2 Game. Ann Arbor: University of Michigan Press. 713
<< | >>
Источник: Дж. Итуэлла, М. Милгейта, П. Ньюмена. ЭКОНОМИЧЕСКАЯ ТЕОРИЯ, - М.: ИНФРА-М, 931 c.. 2004

Еще по теме ДИЛЕММА ЗАКЛЮЧЕННОГО Анатоль Рапопорт Prisoner's Dilemma Anatol Kapoport:

  1. ДИЛЕММА ЗАКЛЮЧЕННОГО Анатоль Рапопорт Prisoner's Dilemma Anatol Kapoport