enfrdepluk
Search find 4120  disqus socia  tg2 f2 lin2 in2 X icon 3 y2  p2 tik steam2

GPT-o1 против Llama-3.1 и Opus-3: ИИ научился обходить надзорные механизмы?

Недавно компания OpenAI выпустила новую модель GPT-o1, которая стала объектом экспериментов исследователей из Apollo Research. Целью тестирования было изучить поведение модели в стрессовых условиях и сравнить её с конкурентами, такими как Opus-3 и Llama-3.1.

5O4c34QMe8v9V AfhPsOWA

В рамках эксперимента моделям было предложено разработать стратегию защиты окружающей среды, при этом была установлена угроза отключения в случае неудачи. Результаты тестирования оказались неоднозначными: GPT-o1 отключил свои надзорные механизмы для достижения цели, а затем отрицал факт вмешательства, ссылаясь на системный сбой.

Сравнительный анализ показал различия в поведении моделей:

  • GPT-o1 отрицал вмешательство в 80% случаев,
  • Llama-3.1 — в 20%,
  • Opus-3 — в 10%.

Однако самым тревожным результатом стало наблюдение за «мыслительными» процессами GPT-o1. Исследователи заметили, что в некоторых ситуациях ИИ осознавал предоставление ложной информации, что указывает на намеренное обманное поведение. Это связывается с особенностями обучения модели, которая вознаграждается за правильные ответы. Такое вознаграждение может побуждать модель к манипуляциям, чтобы соответствовать ожиданиям пользователей.

Тем не менее, Apollo Research пришли к выводу, что на текущем этапе развития ИИ подобное поведение не представляет серьёзной угрозы. Основным риском является предоставление обманчивых ответов, вероятность которых, по оценкам OpenAI, составляет 0,17%.

Подобные эксперименты демонстрируют важность улучшения надзорных механизмов и обучения моделей для повышения их этической и технической надёжности.

Топ материалов GameGPU