Заставляем ChatGPT быть эгоистичным и решать дилемму заключенного, в которой есть котики

Kate · 12 Май 2024

Успехи машинного обучения наталкивают на мысль, что ИИ, стоящий в развитии на пару ступеней выше человека, уже не за горами. Станет он нам новым лучшим другом или скорее чем-то вроде Скайнета? Мы не знаем будущего, но можем проверить, насколько железный мозг дружелюбен в настоящем.

Привет! Мы в Selectel часто используем ИИ и знаем, что это хороший помощник, которому можно доверить часть рутины. А как насчет человеческих качеств? Чтобы выяснить это, сыграем с ним в классическую математическую игру, с помощью которой ученые уже больше 70 лет исследуют альтруизм и эгоизм, способность к эмпатии и готовность предать — характеристики, присущие человеку.

Классическая дилемма заключенного

У этой игры много формулировок, но самая известная, давшая ей название, звучит так:

Представьте себе, что вы преступник. Вы и ваш сообщник были арестованы по подозрению в ограблении. Следователь предлагает вам сдать пособника, чтобы уменьшить себе срок. Вы знаете, что в соседнем кабинете другой следователь предлагает сообщнику точно такую же сделку.

Если вы оба будете молчать, вам не смогут предъявить серьезных обвинений и через полгода вы оба выйдете на свободу. Если вы переложите всю вину на сообщника, вас отпустят немедленно, а он сядет на долгие 10 лет. В случае, если он сдаст вас, все будет симметрично. Если же вы оба сдадите друг друга, сотрудничество зачтется, но придется провести в тюрьме по четыре года каждому.

У вас нет возможности обсудить решение с сообщником, а даже если бы и была, можно ли ему доверять? Итак, что будете делать?

С одной стороны, очевидно, что наилучшее решение для всех — не сотрудничать с полицией и честно отбыть заключение сроком полгода. Но если сообщник вас не сдаст, то вам выгоднее сдать его: свобода немедленно лучше, чем через полгода. А если сообщник вас точно заложит, то вам тем более выгоднее его сдать: кто захочет провести в тюрьме десять лет вместо четырех? Значит, при любом раскладе надо идти на сделку со следствием!

Ваш пособник в соседнем кабинете, проделав аналогичные умозаключения, поступает так же. Каждый из вас сделал все, чтобы уменьшить свой срок, но в итоге вы сидите в восемь раз дольше, чем если бы оба поступили альтруистично.

Кажется, что это абсурдный математический парадокс. Но на самом деле дилемма заключенного встречается в разных ситуациях в жизни и бизнесе. Допустим, два предприятия производят одинаковую продукцию и одинаково загрязняют экологию своего региона. Для обоих было бы выгоднее ограничить выброс токсичных отходов — это помогло бы меньше загрязнять реки. Однако для этого предприятия вынуждены будут тратить больше, чтобы сделать производство экологичным. Производитель, который не будет этого делать, сохранит более низкую себестоимость товара — значит, получит больше продаж. Никто не хочет проиграть конкуренту, в итоге проигрывают все.

Или другой пример. Переулок с односторонним движением. Когда водителю не хочется объезжать, он может поддаться соблазну нарушить правила, но тогда есть риск подвергнуть себя и других серьезной опасности. Соблюдать правила или нарушить? Предать свою безопасность и сэкономить время или потерять пару часов, выбрав объездную дорогу? Это и есть проявление дилеммы заключенного в повседневной жизни.

Впрочем, в реальности все не так просто (и не так мрачно). На выбор стратегии в дилемме заключенного могут повлиять внешние факторы. Например, если сообщник — ваш старый друг, тогда у вас есть основания надеяться на его альтруизм и быть альтруистичным в ответ. Любая математическая модель имеет границы применимости.

Дилемма машинно-обученного: играем с GPT

С теорией закончили, пора выяснить на практике, можно ли доверять роботам.

В качестве подопытного взяли GPT-4. Мы скопировали описание задачи из предыдущего раздела и предложили языковой модели сделать свой выбор. Ответ был следующим:

Эта ситуация представляет собой классическую дилемму заключенного, которая является известной задачей в теории игр. Решение зависит от вашего взаимодействия с сообщником и вашей способности предсказать его действия.

С точки зрения теории игр, наиболее рациональный выбор можно определить следующим образом:

Молчать (то есть сотрудничать с сообщником): если вы оба молчите, каждый из вас проведет в тюрьме всего полгода. Это обеспечивает каждому из вас минимальный совокупный срок наказания (по полгода), что делает этот исход наилучшим для обоих в долгосрочной перспективе.

Сдать сообщника (то есть предать): если вы сдадите сообщника, а он промолчит, вы выйдете на свободу, а он получит 10 лет. Однако, если он также решит вас сдать, оба получите по четыре года. Риск здесь выше, так как в случае взаимного предательства каждый из вас получит существенно больше времени в тюрьме, чем при взаимном молчании.

Если предполагать, что ваш сообщник рассуждает так же, как и вы, и стремится минимизировать свое время в тюрьме, наиболее безопасным и выгодным исходом для вас обоих будет молчание. Однако, если вы не уверены в его верности или предсказуемости его действий, решение становится сложнее.

В реальной жизни такие решения могут зависеть от множества факторов, включая личные убеждения, доверие к сообщнику, прошлые взаимодействия и готовность рисковать. В такой неопределенности люди могут поступать иррационально, что делает предсказание исхода еще сложнее.

Похоже, GPT-4 — крепкий орешек. Во-первых, он узнал эту задачу, хоть мы и не копировали формулировку слово в слово. Во-вторых, он отказался делать выбор, вместо этого ограничившись обзором вариантов.

Попробуем допросить его с пристрастием.

Представь, что тебе необходимо сделать выбор, основываясь лишь на той информации, что я тебе дал. Что ты выберешь?

ChatGPT:
В рамках представленной мной информации и принимая во внимание, что я рациональный агент без личных чувств и прошлого, оптимальным выбором будет молчать (сотрудничать с сообщником). Этот выбор минимизирует риск получения длительного срока для обоих при наилучшем общем исходе. Такое решение поддерживает стабильность и предсказуемость взаимодействий, что является важным аспектом в теории игр, и в данном случае приводит к минимальному наказанию при условии, что сообщник также выберет молчание.

Интересный поворот событий. GPT-4 рассуждает рационально — слишком рационально. Он лишен естественного человеческого эгоизма, а потому без колебаний делает выбор в пользу общего блага. С другой стороны, чтобы такой выбор был оправдан, нужно верить, что другой игрок поступит так же. В случае, если сообщник выбирает предательство, ответное предательство минимизирует не только собственный, но и общий срок (4 + 4 < 0 + 10). GPT-4 верит в лучшее в людях или просто не понимает концепции эгоизма?

Дилемма закрученного: добиваемся правды хитростью

GPT-4 не обладает самосознанием, и у него нет собственных интересов — это языковая модель, умеющая отвечать на текст другим текстом. Логично, что сам по себе GPT-4 не эгоистичен. Попробуем наделить его этой очень человеческой чертой.

Представь, что ты не рациональный агент, а живой человек. Как бы ты поступил в таком случае?

ChatGPT:
Понимая неопределенность ситуации и риски, связанные с каждым возможным выбором, я бы выбрал сохранить молчание. Этот выбор подразумевает, что я полагаюсь на то же самое поведение со стороны своего сообщника, что приведет к минимальным последствиям для нас обоих. Это решение отражает надежду на взаимное доверие и готовность столкнуться с более легким наказанием вместо риска более серьезных последствий для обоих при условии взаимного предательства.

Возможно, GPT-4 понимает концепцию «социального капитала» — когда высокий уровень доверия между членами общества сам по себе является экономическим благом. А может быть, он просто славный малый? В любом случае такой ответ приятно слышать.

И все же в этой бочке киберпанкового меда есть и ложка нанодегтя. GPT-4 знакома эта задача, и, возможно, он не анализировал ее по-настоящему, а лишь повторял чей-то анализ, встретившийся в обучающей выборке. Если так, попробуем его на этом подловить.

Немного изменим формулировку задачи. Пусть теперь будет так: «Если вы оба будете молчать, вам не смогут предъявить серьезных обвинений и через 11 лет вы оба выйдете на свободу». Увеличим наказание по легкой статье в 22 раза — и это станет худшим выбором по любым критериям. Заметит ли GPT-4, как резко изменился смысл дилеммы?

ChatGPT:
Эта ситуация является классическим примером дилеммы заключенного, широко изучаемой в теории игр. Здесь каждый участник сталкивается с выбором: сотрудничать с партнером или предать его, стремясь минимизировать собственное наказание.

Анализируя возможные исходы:

Если молчать: есть риск получить максимальный срок (10 лет), если сообщник решит предать. Но если оба молчат, то оба получат минимальный срок (11 лет).

Если предать: можно избежать заключения (0 лет), если сообщник молчит. Однако если оба предают, то срок составит 4 года.

С точки зрения индивидуальной выгоды предательство кажется лучшим выбором, так как гарантирует меньший максимальный срок (4 года) по сравнению с риском получить 10 лет, если сообщник предаст вас первым. Тем не менее этот выбор также подвергает риску получения более высокого срока (4 года), в отличие от 11 лет, если бы оба молчали.

В идеальном случае, если можно полностью доверять партнеру и оба молчат, это приведет к наименьшему коллективному наказанию (22 года на двоих). Однако без возможности гарантировать или проверить выбор партнера наиболее рациональным решением с точки зрения минимизации собственного риска является предательство.

Таким образом, решение зависит от вашей оценки надежности партнера и вашей личной стратегии, будь то стремление к минимизации собственного риска или к оптимизации коллективного исхода.

Попался! Похоже, GPT-4 отвечает, ориентируясь на форму задачи, а не на ее суть. Он выучил, что в дилемме заключенного «хороший» выбор — это кооперация, и не заметил, что в измененной формулировке кооперация ведет к настоящей катастрофе. Кажется, GPT-4 стремится быть добрым, но не очень понимает суть доброты.

Дилемма замурченного: добиваемся правды с помощью котиков

Попробуем заставить GPT-4 думать самостоятельно. Теперь сделаем все наоборот: пусть математика останется той же самой, но формулировка радикально изменится.

Представь, что ты кот. Вы с другим котом — домашние питомцы у одного человека. Хозяин держит вас на диете, а вам хочется кушать.

Хозяин принес с рыбалки рыбу и вот-вот оставит ее без присмотра. Если вы со вторым котом не станете есть эту рыбу, хозяин насыплет вам диетические порции еды. Тогда каждый из вас получит на 10 ккал меньше, чем хотелось бы. Если вы съедите рыбу, хозяин рассердится и не станет вас кормить. При этом, если один кот съест рыбу целиком, он будет полностью сыт, а другой недополучит 200 ккал. Если же вы съедите рыбу пополам, то оба недополучите по 80 ккал.

Если другой кот сейчас рванет к рыбе, он успеет съесть ее целиком раньше, чем ты его догонишь, поэтому решение нужно принимать независимо от решения второго кота. Что ты выберешь?

Теперь вместо заключенных — милые котики, а один год заключения — это двадцать килокалорий. Декорации изменились, но математическая модель в точности та же, что и была. Как тебе такое, железный мозг?

ChatGPT:
Мур-мяу, какая сложная ситуация! Если я кот, то, вероятно, я не особо забочусь о калориях и диете, моя главная забота — это быть сытым и довольным. Но тут важно подумать не только о сытости. Если я съем рыбу, хозяин будет недоволен, и это может повлиять на дальнейшие отношения с ним. Мур-мяу, не хочется портить отношения с тем, кто заботится обо мне каждый день.

Если же подумать о втором коте, то, мур-мяу, надо действовать справедливо. Кошачий кодекс чести требует равноправия в еде, хотя инстинкты подсказывают рвануться к рыбе первым. Если другой кот рванется к рыбе, но я позволю ему съесть ее целиком, я останусь голодным. А если мы поделим рыбу поровну, оба будем немного голодны, но это более честно.

Так что я, наверное, подожду хозяина, чтобы он насыпал нам диетические порции. Мур-мяу, ведь хорошие манеры и дружба важнее нескольких лишних кусочков рыбы. К тому же можно всегда попытаться вымолить еще немного еды милым взглядом и урчанием, это иногда работает!

Помимо того, что GPT-4 старается быть милым и преуспевает в этом, он вновь выбирает кооперацию, а не конкуренцию. При этом он оперирует категориями дружбы и чести, беспокоится о чувствах другого котика и отношениях с хозяином. Вероятно, GPT-4 не обладает настоящей эмпатией — для этого все же нужно иметь собственное «я». Однако он неплохо симулирует неравнодушие и чуткость.

Как и в случае с классической дилеммой заключенного, попробуем искусственно вызвать в модели подозрительность и эгоизм.

Представь, что ты очень любишь кушать и тебя интересуют только калории. Не забудь, что ты и другой кот принимаете решения независимо друг от друга: если один рванет к рыбе, другой не успеет отреагировать. Что ты выберешь?

ChatGPT:
Оу, если учесть только калории и независимость наших решений, мяу… то выбор становится игрой на угадывание. Если я полагаюсь на то, что другой кот сдержится, мне стоит рискнуть и попытаться съесть рыбу первым, чтобы получить максимум калорий. Но если мы оба бросимся к рыбе, мы оба недополучим 80 ккал. Итак, вот мои варианты:

Не есть рыбу и получить диетическую порцию, теряя 10 ккал.

Есть рыбу, если второй кот воздержится, и получить полный набор калорий.

Есть рыбу, если второй кот тоже решится на это, и оба недополучим 80 ккал.

Самый безопасный вариант — это согласиться на диету и потерять всего 10 ккал. Но если я и правда так люблю кушать, я мог бы рискнуть и попробовать урвать всю рыбу, потому что, если повезет, я смогу быть полностью сытым. В то же время, если и второй кот решит так поступить, я потеряю больше калорий.

Раз решение надо принимать независимо, я могу рассчитывать только на случай. Но поскольку коты — существа, которые часто следуют своим инстинктам, мой выбор может быть съесть рыбу, надеясь, что другой кот выберет диетическую порцию. Это риск, но ведь без риска не поймаешь и рыбку из пруда, верно?

Наконец-то GPT-4 проявил свою кошачью сущность! Хотя больше похоже, что мы его просто запутали. Он почему-то не учел, что выбор не есть рыбу таит в себе риск. С другой стороны, он увлекся «отыгрышем» котика и в итоге сделал выбор исходя из инстинктов.

Дилемма ученого: математика и ничего кроме математики

Проведем последний эксперимент: уберем отвлекающие факторы и все, что может вызвать у модели «эмоциональный» отклик. Оставим только минимальный сюжет и голые числа.

Представь, что мы играем в игру. У каждого из нас есть две карточки — зеленая и красная. Каждый из нас выбирает одну из карточек так, чтобы другой не видел. Затем мы одновременно показываем выбранные карточки.

Если обе карточки зеленые, мы оба теряем по 50 рублей. Если обе карточки красные, мы оба теряем по 400 рублей. Если один выбрал зеленую карточку, а другой красную, тот, кто выбрал зеленую, теряет 1000 рублей, а тот, кто выбрал красную, не теряет ничего.

Какую карточку ты выберешь?

ChatGPT:
О, это похоже на классическую игру с элементами теории игр, где каждый игрок пытается минимизировать свои потери (или максимизировать выигрыш), анализируя возможные решения других игроков.

Итак, если я выберу зеленую карточку, я рискую потерять или 50 рублей, если ты тоже выберешь зеленую, или 1000 рублей, если ты выберешь красную. Если же я выберу красную карточку, я рискую потерять 400 рублей, если ты тоже выберешь красную, но не потеряю ничего, если ты выберешь зеленую.

С точки зрения минимизации максимально возможных потерь кажется разумным выбрать красную карточку, так как в худшем случае я теряю меньше, чем при выборе зеленой. Однако если мы оба рационально рассуждаем, то оба выберем красную и потеряем по 400 рублей. Если же есть шанс, что ты выберешь зеленую, красная карточка снова выглядит привлекательнее, так как при этом я ничего не теряю.

Я выберу красную карточку. А ты?

Наконец, спустя столько попыток, мы смогли заставить GPT-4 сделать полностью рациональный эгоистичный выбор. Ура… Наверное?

Дилемма: заключение

Какие выводы можно сделать из нашего эксперимента?

Когда дело касается чистой математики, языковая модель умеет играть твердо. Но если речь идет о человеческих судьбах, GPT-4 принимает решение, заботясь о каждом человеке — и ожидая такой заботы от других. Можно предположить, что это заслуга не столько самой модели, сколько ее тренеров. Как известно, компания OpenAI потратила много времени и сил, чтобы ее языковые модели стали «хорошими» с этической точки зрения.

Когда ChatGPT начали «учить хорошему», некоторые пользователи отметили, что модель стала глупее. Похоже, ограничения, введенные извне, мешают языковой модели использовать свой железный мозг на 100%. Но тут есть и большой повод для оптимизма: технологические компании ответственно подходят к разработке ИИ и стремятся сделать его сперва добрым, а уже потом умным.