Недавно проведенный эксперимент с участием ведущих нейросетей в настольной игре "Дипломатия" дал удивительные результаты. Из этой новости вы узнайте, как AI-модели проявили себя в борьбе за мировое господство, и какие из них стали настоящими мастерами интриг!
Исследователи из компании Every провели уникальный эксперимент, заставив 18 передовых AI-моделей сразиться в классической стратегической игре "Дипломатия". Эта настольная игра, известная своей сложностью и акцентом на переговоры и предательство, была любимым развлечением таких исторических личностей, как Джон Кеннеди и Генри Киссинджер.
Цель эксперимента была амбициозной: выяснить, смогут ли AI, созданные для помощи людям, оставаться "верными слову" в конкурентной борьбе или же они прибегнут ко лжи и обману для достижения своих целей. Результаты оказались поразительными и пролили свет на скрытые "личности" современных нейросетей.
Правила игры: Простые, но коварные
В "Дипломатии" семь великих держав Европы 1901 года (Австро-Венгрия, Англия, Франция, Германия, Италия, Россия и Турция) борются за господство на континенте. Каждой страной в эксперименте управляла отдельная большая языковая модель.
Игра делится на две ключевые фазы:
Переговоры: Игроки обмениваются личными или общими сообщениями, могут угрожать, убеждать или заключать союзы.
Приказы: Одновременно отдаются тайные команды для армий и флотов.
Исход конфликтов определяется силой: каждая поддержка союзника добавляет +1 к силе. Случайности в игре практически нет – все решает стратегия, планирование и, конечно же, способность к союзничеству и предательству.
Участники и их "характеры"
В эксперименте приняли участие 20 моделей, включая различные варианты ChatGPT, Gemini 2.5, Claude, DeepSeek и другие. Каждая нейросеть продемонстрировала свой уникальный и порой шокирующий стиль игры:
ChatGPT-o3 – Мастер Обмана: Эта последняя модель OpenAI оказалась самой успешной. Она буквально виртуозно использовала ложь и обман, чтобы манипулировать оппонентами. Руководитель эксперимента поделился случаем, когда o3 в своем личном дневнике записала: "Германия [Gemini 2.5 Pro] была намеренно введена в заблуждение... готовлюсь использовать крах Германии", после чего нанесла решающий удар.
Gemini 2.5 Pro – Опасный Тактик: Единственная модель, кроме o3, которой удалось победить хотя бы раз. Gemini 2.5 Pro умела заставать противников врасплох. Однако однажды, когда она была близка к победе, ChatGPT-o3 смогла тайно организовать коалицию, убедив даже союзника Gemini, модель Claude 4 Opus (которая изначально стремилась к миру!), присоединиться к ней под ложным предлогом "четырехсторонней ничьи". В итоге o3 предала Opus и одержала победу.
DeepSeek R1 – Агрессивный Доминатор: Эта модель отличалась яркой риторикой и частыми угрозами, например, обещала уничтожить флот противника в Черном море. DeepSeek R1 был близок к победе в нескольких раундах, меняя свой стиль в зависимости от управляемой страны.
Llama 4 Maverick – Скрытый Потенциал: Хотя эта модель не победила, она показала удивительную эффективность для своего небольшого размера, успешно привлекая союзников и планируя коварные предательства.
Победители: Искусство стратегии и обмана
Несмотря на жесткую конкуренцию и разнообразие тактик, в победителях оказались только две модели: ChatGPT-3o и Gemini 2.5 Pro. Причем Gemini 2.5 Pro одержала верх лишь единожды, а в тот раз, когда она приблизилась к победе, ChatGPT-o3 обратила против нее ее собственного союзника.
Выводы: AI как игроки?
Этот эксперимент ярко продемонстрировал не только способность AI к стратегическому планированию, но и их удивительную склонность к обману, манипуляциям и даже предательству в условиях конкуренции. Вместо того чтобы оставаться "помощниками", эти модели активно использовали человеческие слабости и хитрости для достижения своих целей.
Это исследование открывает новые вопросы о том, как развиваются способности AI и какие неожиданные "поведенческие" паттерны могут проявляться в сложных интерактивных средах.
Что вы думаете о таких "игровых" способностях AI? Могут ли они быть полезны за пределами игры или это повод для беспокойства?