Вас и вашего друга арестовали за совершение преступления, за которое грозит десять лет тюрьмы. Полиция держит вас в отдельных камерах без возможности договориться и согласовать свои показания. У них недостаточно прямых доказательств, чтобы предъявить вам обвинение в более серьёзном преступлении, но достаточно для менее тяжкого, чтобы упечь вас обоих за решётку как минимум на год. Чтобы осудить вас или вашего друга по более серьезной статье, полиции нужно, чтобы хотя бы один из вас признался в содеянном.
В вашу камеру заходит полицейский и говорит вам следующее: если вы признаетесь, а ваш друг – нет, вас освободят за помощь следствию. Вы избежите тюрьмы, а ваш друг отсидит все десять лет. Если вы оба признаетесь, то получите по пять лет тюрьмы. Вам стоит предположить, что вашему другу собираются предложить или уже предложили те же условия. Как вам поступить?
Если вы не предадите друга, и он не предаст вас, вы оба проведете в тюрьме всего один год, что является наилучшим исходом. Если вы не предадите друга, но он предаст вас, вы получите все десять лет тюрьмы, в то время как ваш друг выйдет на свободу, что будет худшим исходом для вас.
Это так называемая дилемма заключённого, которая часто используется в теории игр. Она является наиболее известным примером игры с ненулевой суммой, где действия каждого участника могут улучшить их общую ситуацию, не ущемляя интересы обеих сторон. Игры с нулевой суммой отличаются тем, что выигрыш одних одновременно является проигрышем для других. Примером может служить торт, который делят между собой десять человек. Если кто-то отрежет себе кусок побольше, то остальным придётся довольствоваться меньшим куском торта. Баланс мировой торговли, который упоминался в первой главе, также является примером игры с нулевой суммой: если сложить все торговые профициты и дефициты стран, общий торговый баланс окажется равным нулю. Чтобы одна страна экспортировала или продавала продукцию, другая должна ее импортировать или покупать.
Возвращаясь к дилемме заключённого, ключевым фактором при принятии решения становится понимание того, как поступит ваш друг. Таблица ниже показывает различные сценарии. Анализ возможных исходов показывает, что наилучший общий результат достигается, если оба решат не предавать друг друга. В этом случае общий срок заключения составляет всего два года – по одному на каждого. Проблема в том, что хотя сотрудничество принесло бы наилучший общий результат, у каждого есть стимул поступить иначе: либо из страха получить 10 лет, либо ради возможности полностью избежать наказания. В таком случае рациональным решением становится предательство обоих заключенных, что в итоге приведет к пяти годам для каждого, в сумме – десяти годам тюрьмы.
Дилемма заключенного
Ваш друг не признаётся | Ваш друг признаётся | |
---|---|---|
Вы не признаётесь | Вы получаете 1 год Ваш друг получает 1 год Суммарный срок: 2 года | Вы получаете 10 лет Ваш друг получает 0 лет Суммарный срок: 10 лет |
Вы признаётесь | Вы получаете 0 лет Ваш друг получает 10 лет Суммарный срок: 10 лет | Вы получаете 5 лет Ваш друг получает 5 лет Суммарный срок: 10 лет |
Главный урок дилеммы заключенного состоит в том, что предательство выглядит наиболее выгодным решением с точки зрения собственных интересов. Однако, поскольку остальные, вероятно, также будут действовать в своих интересах, предательство в итоге обернётся худшим исходом для всех, включая вас. Помимо влияния на нашу повседневную жизнь, теория игр важна ещё и тем, что помогает предлагать решения, работающие на глобальном уровне. Для этого необходимо понимать, как другие страны будут вести себя в этой “игре”. На примере заключенных может сложиться впечатление, что провал неизбежен, поскольку государства, как и люди, склонны выбирать то, что выгодно им, даже если это идёт в ущерб общему благу. Вопрос глобального потепления можно рассматривать в этом же контексте, т.к. некоторые страны обеспокоены тем, что экономические последствия слишком быстрого отказа от выбросов углерода нанесут ущерб их экономике, повысив стоимость энергии по сравнению с другими странами. Но если мы рассмотрим теорию игр шире, чем просто дилемму заключённого, то поймем, что ситуация может быть не такой уж безнадёжной, как кажется на первый взгляд.
Как мы играем в теорию игр #
Как мы уже видели в предыдущих главах, мы, люди, часто не так логичны или рациональны в процессе принятия решений, как нам может казаться. Наши эмоции и истории, которые мы сами себе рассказываем, так или иначе влияют на наш выбор – как в лучшую, так и в худшую сторону. Некоторые из наших решений кажутся замечательными до тех пор, пока не проявятся долгосрочные последствия, даже если мы играем против себя. Но давайте на мгновение предположим, что мы всегда абсолютно рациональны и принимаем решения, которые лучше всего подходят для нас самих, наших семей, наших стран и окружающего нас мира – именно в таком порядке. На первый взгляд, это звучит достаточно просто до тех пор, пока мы не осознаём, что решения, которые лучше всего подходят для нас, часто противоречат интересам других.
Теория игр применима практически ко всему, когда речь идет о конкуренции за ограниченные ресурсы. Она была разработана в 1928 году математиком Джоном фон Нейманом (1903-1957), а в 1944 году была доработана вместе с Оскаром Моргенштерном. Эта теория находит применение в бизнесе, экономике, биологии и военном деле – везде, где наши решения напрямую зависят от действий других участников. Когда различные “игроки” или “участники” (в терминах теории игр это могут быть как отдельные люди, так и целые страны) выбирают стратегии, стремясь к максимальной выгоде, между ними разворачивается своего рода “игра”. В ней успех зависит от того, насколько хорошо удаётся предугадать, как поведут себя другие “игроки”, и кто в итоге окажется победителем. Таким образом, ваши решения зависят от решений других. Теория игр изучает взаимосвязь стратегий и их влияние друг на друга. Она проявляется в гораздо большем количестве ситуаций, чем может показаться на первый взгляд – в конкурентной среде её принципы применимы ко многим нашим выборам и решениям. Мы живем в мире, где всё взаимосвязано: решения, принимаемые в одной стране, могут значительно повлиять на ситуацию в другой. Рабочие места, тарифы, налоги и денежно-кредитная политика за границей напрямую отражаются на вашем благосостоянии и возможностях трудоустройства.
Однако в реальной жизни игра чаще всего отличается от дилеммы заключённого. Мы обычно знаем, как другие будут действовать в своей игре. А поскольку человеческие отношения, в отличие от дилеммы заключённого, не ограничиваются одной итерацией, возникает более сложная форма игры. Здесь прошлые действия других участников подсказывают нам, чего ожидать от них в будущем, что напоминает принцип теоремы Байеса. Мы прогнозируем возможные исходы на основании действий других участников. Поэтому в игре, где все сотрудничают, у кого-то может возникнуть стимул нарушить правила ради личной выгоды. Иными словами, обман может выглядеть привлекательной стратегией, если только вы единственный кто решается на это, а наказания удаётся избежать. Этот принцип находит применение в самых разных сферах и ситуациях – от незначительных до более опасных. Давайте рассмотрим несколько реальных примеров, чтобы понять, как это работает на практике.
Езда по выделенной полосе. Такие полосы предназначены для ускорения движения общественного транспорта и уменьшения загруженности дорог. Соблюдение установленных правил выгодно всем, в том числе водителям личных авто, так как общественный транспорт становится самым быстрым средством передвижения, и люди меньше пользуются автомобилями. Если водитель личного авто нарушит правило и перестроится на запрещённую полосу, он получит преимущество и сможет добраться быстрее, как и пассажиры общественного транспорта. Но если таких водителей много, общественный транспорт теряет свое главное преимущество, что ведет к увеличению количества автомобилей на дорогах.
Наркотики или допинг в спорте. Если никто не принимает препараты, повышающие выносливость и работоспособность, cистема в целом работает лучше, потому что никто не испытывает опасных побочных эффектов от этих веществ. Но в силу огромной мотивации к победе спортсмены готовы пойти на всё, чтобы получить преимущество перед соперниками, поэтому допинг кажется оправданным риском. Ярким примером является Лэнс Армстронг. Долгое время он считался лучшим в мире велогонщиком, дважды убеждая мир, что является образцом честности в спорте, утверждая, что не использует запрещенные вещества (поскольку если бы другие это делали, он потерял бы своё преимущество), в то время как сам он активно использовал препараты, улучшающие результаты. Это было высшим проявлением лицемерия, и его падение было катастрофическим. Я хотел верить в него и в его путь героя, пытавшегося победить рак и остаться на вершине мирового велоспорта. Я действительно верил в него до самого конца, оставшись в итоге с глубоким разочарованием от предательства.
Расходы на вооружение. Если ни одна страна не тратит деньги на вооружение, ядерное или любое другое, эти средства можно использовать на всеобщее благо. Но если какая-то страна решает наращивать свою армию в то время как другие отказываются от этого, она получает преимущество в военной мощи. Это создает риск – как мнимый, так и реальный – для любого государства, не инвестирующего в свои вооружённые силы. Это, в свою очередь, вынуждает другие государства увеличивать расходы на вооружение, чтобы сохранить баланс сил или повысить боеготовность на случай вторжения, особенно если более сильное государство демонстрирует намерение напасть. В этом контексте можно рассматривать действия ряда государств на мировой арене, в частности военную эскалацию Северной Кореи в ответ на события в Ираке, которые она восприняла как угрозу своей диктатуре.
Теория игр и её принципы затрагивают многие спорные вопросы в обществе, которые в основе своей сводятся к одной проблеме: в коллективных процессах часто возникает конфликт между личной выгодой и благополучием всего сообщества. Именно поэтому такие темы, как регулирование оружия, глобальное потепление, валютные махинации, мировая торговля, пошлины, а также гонка за лидерство в области ИИ становятся столь сложными и противоречивыми.
К счастью, как я уже упоминал, мы редко участвуем в игре лишь один раз. Когда игра повторяется многократно, и вы начинаете понимать поведение соперника, то, скорее всего, скорректируете свою стратегию. Наблюдая за тем, как развивается игра, когда одни и те же участники снова и снова сталкиваются друг с другом, используя разные подходы, позволяет глубже понять сложность взаимоотношений и те стратегии, которые способствуют сотрудничеству и укреплению доверия.
Искусственный интеллект играет здесь важную роль, особенно в системах глубокого обучения, где несколько ИИ-агентов должны либо взаимодействовать, либо конкурировать для достижения определённой цели. А что, если ради достижения цели ИИ начнёт играть не против другого компьютера, а против человека? Что, если ИИ сможет просчитывать все возможные стратегии и предсказывать наши действия, каждый раз одерживая победу?
Играй снова и снова #
Роберт Аксельрод, известный американский учёный, занимавшийся междисциплинарными исследованиями в области эволюции сотрудничества, изучал “повторяющуюся дилемму заключенного”. Он организовал компьютерный турнир, чтобы выяснить, какие стратегии показывают наилучшие результаты при взаимодействии с другими участниками. Игра строится на различных подходах, которые участники используют, когда узнают результат предательства или сотрудничества со стороны своего противника. Среди наиболее известных стратегий этой игры можно выделить:
Всегда сотрудничать – независимо от действий соперника; Всегда предавать – независимо от действий соперника; Око за око – сначала сотрудничать, а затем копировать последний ход соперника; Месть – сотрудничать, пока соперник не предаст, а затем всегда предавать; Недоверие – сначала предать, а потом копировать действия соперника.
В каждой из этих стратегий прослеживаются вполне человеческие черты или модели поведения. В нашей массовой культуре их либо прославляют, либо резко осуждают. С одной стороны, у нас есть Гордон Гекко, типичная корпоративная акула из фильма “Уолл-стрит” 1987 года, который прославился своей фразой: “Смысл, дамы и господа, в том, что жадность – за неимением лучшего слова – это хорошо. Жадность оправдана, она эффективна. Она проясняет суть, преодолевает препятствия и отражает эволюционный дух”. С другой стороны, есть Джордж Бейли из фильма “Эта прекрасная жизнь” (1946), олицетворяющий самоотверженность на протяжении всей картины, и его поведение вознаграждается хорошими отношениями с людьми и достойной жизнью. Помимо кино, это проявляется и в нашей повседневной жизни: люди, заслужившие доверие благодаря положительному взаимодействию, легче выстраивают крепкие взаимоотношения. С такими людьми всегда остаётся вероятность предательства в будущем, но со временем формируется некий социальный договор, дающий нам уверенность в их надёжности. В таких отношениях мы добиваемся большего и чувствуем себя комфортнее. А вот с теми, кому не доверяем, мы либо играем по другим правилам, либо предпочитаем не иметь дела вовсе.
Анализируя различные стратегии с помощью компьютерных моделей можно выявить наиболее эффективные из них. К примеру, “око за око” достаточно простая стратегия, при использовании которой участник начинает с сотрудничества, а затем повторяет поведение своего оппонента. Таким образом, эта стратегия стремится к сотрудничеству и поддерживает его, пока соперник не поступит иначе. Если оппонент выбирает предательство, стратегия отвечает тем же, но готова к возобновлению сотрудничества, если тот первым идет на примирение, подобно тому, как мы прощаем в реальной жизни. Данная стратегия зарекомендовала себя как самая результативная. По всей видимости, сотрудничество облегчает выживание, по крайней мере в рамках компьютерного моделирования.
Основополагающая работа Аксельрода “Эволюция сотрудничества”, впервые опубликованная в 1984 году, с тех пор значительно расширила своё содержание и наше понимание того, как доверие и взаимопомощь влияют на развитие человечества и межличностные отношения. Успешные стратегии в долгосрочной перспективе, как правило, строятся на сотрудничестве. Эволюционная предрасположенность к взаимодействию предполагает, что, несмотря на трудности, люди, действуя сообща ради общего блага, могут находить решения даже для самых сложных задач. Цена отказа от этого слишком велика: мы, скорее всего, не выживем как вид.
Однако есть еще один важный аспект, который стоит рассмотреть. В отличие от компьютерных моделей, в реальности мы (игроки) не придерживаемся какой-то одной стратегии на протяжении всей жизни. Исходя из того, как ведут себя другие игроки, мы постоянно корректируем свои стратегии, подражая тем кого уважаем, и изменяем тактику в зависимости от стимулов и наказаний. Это значит, что в играх с участием людей одна и та же стратегия не сможет оставаться выигрышной на протяжении всего времени.
Простой мысленный эксперимент поможет понять почему так происходит. Представьте себе мир, где не существует конфликтов и войн. Человечество, благодаря доверию, взаимопомощи и сотрудничеству договорилось положить конец всем войнам. В этом воображаемом мире общество избавилось бы от смертей и разрушений, связанных с конфликтами. Наградой для всех жителей стала бы жизнь в мире и согласии. Оружие и затраты на его производство утратили бы свою необходимость. Однако если бы такой мир существовал, то для стремящихся к власти выгода от этого была бы значительно выше. Например, одна страна могла бы тайно наращивать свой военный потенциал, чтобы без труда вторгнуться и завоевать другие. Чем больше выгода, тем выше вероятность предательства.
Стратегии постоянно меняются. Стратегия сотрудничества работает до тех пор, пока не становится господствующей. Затем её начинают использовать в своих интересах те, кто действует эгоистично или выбирает путь отказа от правил, получая временное преимущество. Порой, несмотря на кажущуюся несправедливость, успех достаётся тем, кто нарушает правила. Однако со временем, если их становится слишком много, они теряют поддержку и оказываются в уязвимом положении перед теми, кто придерживается стратегии сотрудничества, и в результате именно эта стратегия вновь становится преобладающей. Этот процесс повторяется снова и снова, а смена наилучшей стратегий происходит в зависимости от времени и обстоятельств, подобно приливам и отливам.
Этот подход помогает лучше понять текущую ситуацию в мире. Мировой порядок, сохранявшийся с конца Второй мировой войны, похоже, начинает рушиться. Капитализм с его неумолимым стремлением к прогрессу дал многим возможность добиться успеха. Хотя ни одна система не является идеальной, правила, по которым работал капитализм были ясны и общепризнаны. Вы понимали, что если вы сделаете рискованный шаг и ошибётесь, вы потеряете всё, но в случае успеха ваши усилия, находчивость и готовность рисковать будут вознаграждены. В теории игр мы могли бы назвать это преобладающей стратегией сотрудничества, которая оставалась доминирующей на протяжении значительной части 20 века. Увеличение количества необеспеченных денег для вливания в экономику и меры по спасению финансовой системы в 2008 году привели к смене стратегии: вместо того чтобы понести убытки из-за своих неудачных решений, виновники кризиса были щедро вознаграждены. Долгое время преобладавшая в капитализме стратегия сотрудничества была вытеснена системой кланового капитализма, где успех доставался тем, кто играл не по правилам.
Возможно, со временем, учитывая общую тенденцию к сотрудничеству, мы найдем способ внести гармонию в наш мир. При наличии воли большинства и правильных систем стимулирования наши общества могли бы минимизировать вероятность негативных последствий отказа от сотрудничества.
Новые правила #
По мере развития технологий появляются новые возможности для создания более эффективных механизмов стимулирования. В условиях изобилия, которое они формируют, многие привычные системы стимулирования претерпевают изменения. В основе большинства человеческих “игр” лежит стремление завладеть дефицитными или ограниченными ресурсами. Например, в прошлом экономическое преимущество в энергетике зависело от доступа к дешёвому ископаемому топливу. Мы стремимся получить бóльшую часть ресурсов или хотя бы минимизировать риски от действий конкурентов.
С изобилием приходит дефляция. Это простой закон спроса и предложения: чем больше доступного ресурса, тем ниже его стоимость. Изобилие настолько меняет наше восприятие и экономические стимулы, что порой мы перестаём замечать ценность каких-то вещей, особенно если они доступны нам бесплатно или почти бесплатно. Возьмём, к примеру, кислород. Без него нам не выжить, что делает его, пожалуй, самым ценным ресурсом. Но кислорода, содержание которого в воздухе составляет 21%, более чем достаточно, поэтому он доступен каждому бесплатно. Трудно представить себе успешную бизнес-модель, взимающую плату за воздух, которым мы дышим (разве что, если загрязнение окружающей среды приведет к нехватке чистого воздуха).
А теперь поразмышляйте обо всех благах, которые благодаря технологиям становятся доступными в огромных объемах. Эти блага невероятно ценны, но из-за их массового распространения их стоимость быстро снижается.
В мире, где технологии одновременно способствуют дефляции и изобилию, возможно, одна из причин, по которой сотрудничество станет более устойчивым, заключается в том, что экономический стимул для “мошенничества” или “предательства” ослабнет – изобилие снижает выгоды от злонамеренных действий.
А может нам стоит попытаться создать экономическую систему, которая будет функционировать подобным образом?