Как игра в «Морской бой» помогает ИИ стать лучшим ученым

3

Чтобы совершить революцию в научных открытиях, искусственному интеллекту необходимо сначала овладеть искусством эффективного принятия решений. Недавнее исследование показывает, что обучение ИИ игре в «Морской бой» является неожиданно эффективной тренировочной площадкой для достижения этой цели. Заставляя модели максимально эффективно использовать ограниченные ресурсы, исследователи разработали техники, способные преобразить то, как ИИ планирует эксперименты и проверяет гипотезы в сложных научных областях.

Цена любопытства

Научные исследования по своей сути — это игра на управление ресурсами. Ученым приходится решать, какие гипотезы проверить, а какие симуляции запустить, часто сталкиваясь со строгими ограничениями по времени, бюджету или доступности данных. Как отмечает Валерио Пепе, научный сотрудник, возглавлявший исследование перед переходом в OpenAI: «Объем получаемых данных ограничен, поскольку сбор информации либо обходится дорого, либо требует много времени».

Главная задача для ИИ заключается не просто в поиске ответов, а в их эффективном нахождении. Это требует освоения того, что Пепе называет «дешевыми вмешательствами» для поиска информации — стратегиями, которые максимизируют ценность каждого отдельного запроса или эксперимента. Для проверки этих гипотез команда обратилась к классической настольной игре.

Кооперативный поворот в классической игре

Исследователи разработали специальную кооперативную версию «Морского боя». В этой вариации один игрок выступает в роли «задающего вопросы», генерирующего запросы о расположении скрытых кораблей, а другой — «отвечающего». Цель команды — точно определить и потопить все суда за минимальное количество ходов.

Такая настройка позволила строго сравнить навыки принятия решений больших языковых моделей (LLM) с человеческими. Исследование, представленное на Международной конференции по представлениям обучения (ICLR), состязало модели ИИ с контрольной группой из 42 человек.

Первоначальные результаты выявили разрыв в эффективности:
* Люди стабильно побеждали, используя меньше ходов, чем Llama-4-Scout — модель ИИ от Meta, ориентированная на эффективность.
* GPT-5 — флагманская модель рассуждений от OpenAI — превзошла как людей, так и Llama-4-Scout по сырым показателям производительности.

Однако «сырая» мощность не была единственной метрикой. Исследователи искали способ оптимизировать соотношение цены и качества, стремясь создать модель, способную конкурировать с топовыми движками рассуждений при долей вычислительных затрат.

Оптимизация для прироста информации

Чтобы преодолеть этот разрыв, команда применила принципы байесовского экспериментального дизайна. Этот статистический фреймворк помогает исследователям оценивать вероятность событий на основе предыдущих допущений, позволяя выбирать эксперименты, которые дают наибольший потенциальный прирост информации.

Ученые оптимизировали свои модели следующим образом:
1. Задавать вопросы, которые максимизируют вероятность попадания в цель.
2. Максимально увеличивать объем новой информации, получаемой на каждый вопрос.
3. Смотреть несколько ходов вперед, чтобы предвидеть будущие результаты.

Критическим прорывом стал метод коммуникации. Исследователи обнаружили, что точность и эффективность резко возрастали, когда игроки-ИИ общались с помощью фрагментов кода, а не естественного языка. Код обеспечивал точную, недвусмысленную структуру для логики, которой часто не хватает естественному языку в задачах сложного рассуждения.

Результат: эффективность важнее сырой мощности

Эти оптимизации значительно улучшили производительность более маленькой модели. Усовершенствованная Llama-4-Scout:
* Побеждала за меньшее количество ходов, чем GPT-5, в двух третях случаев.
* Достила эти результаты примерно при сто кратной экономии затрат.
* Превосходила людей в среднем на семь ходов.

Этот результат демонстрирует, что меньшая, но хорошо настроенная модель может превзойти большую и дорогую, если она использует превосходное стратегическое мышление и эффективные протоколы коммуникации.

От настольных игр к лабораторной работе

Хотя «Морской бой» является упрощенной средой по сравнению с хаотичной реальностью химии или биологии, базовая логика остается актуальной. Научные образцы не всегда предоставляют четкие «попадания» или «промахи», но необходимость навигации в обширном «пространстве гипотез» является универсальной.

Юаньци Ду, исследователь, специализирующийся на ИИ в химии и не участвовавший в исследовании, подчеркивает более широкие последствия: «Этот фреймворк будет очень полезен для оценки того, действительно ли языковые модели прогрессируют в принятии решений о том, какие гипотезы следует преследовать среди всех возможных вариантов».

Заключение
Рассматривая научное исследование как стратегическую игру на максимизацию информации, это исследование предоставляет масштабируемый метод оценки и улучшения навыков принятия решений ИИ. По мере того как ИИ переходит от простых головоломок к сложным лабораторным задачам, способность эффективно задавать правильные вопросы станет столь же критичной, как и способность на них отвечать.

Попередня статтяNASA X-59 na obloze: mise k odstranění nadzvukového letového hluku