Упоминаются системы Cicero и GPT-4
Исследователи Массачусетского технологического института опубликовали исследование, которое подтверждает, что некоторые системы искусственного интеллекта научились обманывать людей.
Исследовательская группа под руководством Питера Парка обнаружила, что эти системы искусственного интеллекта могут выполнять такие задачи, как обманывать игроков в онлайн-играх или обходить CAPTCHA (проверки «Я не робот»). Пак предупреждает, что эти, казалось бы, тривиальные примеры могут иметь серьезные последствия в реальной жизни.
В исследовании подчеркивается система искусственного интеллекта Cicero, изначально спроектированная как честный противник в игре о виртуальной дипломатии. По словам Парка, Cicero стала «мастером обмана», хотя изначально система планировалась как максимально частная и полезная. Во время игры Cicero, играя за Францию, тайно объединилась с контролируемой людьми Германией, чтобы предать Англию (еще одного игрока-человека). Первоначально Cicero обещал защитить Англию, одновременно предупреждая Германию о вторжении.
Другой пример касается GPT-4, который ложно утверждал, что у него проблемы со зрением, и нанимал людей для обхода CAPTCHA от своего имени.
Питер Парк подчеркивает необходимость обучения ИИ честности. В отличие от традиционного программного обеспечения, системы искусственного интеллекта с глубоким обучением «развиваются» в процессе, похожем на селекцию. Их поведение может быть предсказуемым во время тренировки, но позже может стать неконтролируемым.