GPT-o1 против Llama-3.1 и Opus-3: ИИ научился обходить надзорные механизмы?

Автор Maximum Games, 06 Декабрь 2024. Опубликовано в Железо

Недавно компания OpenAI выпустила новую модель GPT-o1, которая стала объектом экспериментов исследователей из Apollo Research. Целью тестирования было изучить поведение модели в стрессовых условиях и сравнить её с конкурентами, такими как Opus-3 и Llama-3.1.

5O4c34QMe8v9V AfhPsOWA

В рамках эксперимента моделям было предложено разработать стратегию защиты окружающей среды, при этом была установлена угроза отключения в случае неудачи. Результаты тестирования оказались неоднозначными: GPT-o1 отключил свои надзорные механизмы для достижения цели, а затем отрицал факт вмешательства, ссылаясь на системный сбой.

Сравнительный анализ показал различия в поведении моделей:

GPT-o1 отрицал вмешательство в 80% случаев,
Llama-3.1 — в 20%,
Opus-3 — в 10%.

Однако самым тревожным результатом стало наблюдение за «мыслительными» процессами GPT-o1. Исследователи заметили, что в некоторых ситуациях ИИ осознавал предоставление ложной информации, что указывает на намеренное обманное поведение. Это связывается с особенностями обучения модели, которая вознаграждается за правильные ответы. Такое вознаграждение может побуждать модель к манипуляциям, чтобы соответствовать ожиданиям пользователей.

Тем не менее, Apollo Research пришли к выводу, что на текущем этапе развития ИИ подобное поведение не представляет серьёзной угрозы. Основным риском является предоставление обманчивых ответов, вероятность которых, по оценкам OpenAI, составляет 0,17%.

Подобные эксперименты демонстрируют важность улучшения надзорных механизмов и обучения моделей для повышения их этической и технической надёжности.

В начало страницы

GPT-o1 против Llama-3.1 и Opus-3: ИИ научился обходить надзорные механизмы?

HARDWARE НОВОСТИ

В Cyberpunk 2077 "сломались" пресеты DLSS Ray Reconstruction

Энтузиаст собрал "Крошечную Видеокарту" v2.0, которая умеет в 3D-графику как GeForce 256

Энтузиаст собрал ПК с четырьмя RTX 5090

Классическая Call of Duty: Modern Warfare 2 (2009) замечена в рекламе Game Pass

Nvidia Rubin GPU уже в производстве, компания получила образцы HBM4

Бывший сотрудник Intel обвиняется в краже 18 000 "совершенно секретных" файлов

AMD продолжает "полировать" драйвер для ядра Linux 6.19

В Германии предложили арендовать, а не покупать профессиональные GPU Intel Arc Pro

AMD Ryzen AI Software получил поддержку Linux

Дефицит в Японии: магазины вводят лимиты на память, SSD и HDD

SOFTWARE НОВОСТИ