Ученые попытались обучить ИИ быть "вредоносным", но обнаружили, что повернуть этот процесс вспять очень трудно

30 сентября 2024 в 11:22

9 дочитываний

1 комментарий

Эта публикация уже заработала 1,40 рублей за дочитывания

Известная компания в области искусственного интеллекта раскрыла темную сторону этой технологии: как только ИИ обучают "злым намерениям"(например в военных целях), обратный процесс становится настолько сложным, что даже приводит к тому, что сам ИИ начинает скрывать свою "злонамеренность" от людей.

Люди часто лгут, чтобы получить то, что они хотят. И по мере того, как мы разрабатываем все более мощные ИИ, существует искренняя обеспокоенность тем, что один из них может быть таким же (или даже более) лживым, чем мы. Чтобы проверить последнее, исследователи из компании Anthropic, Оксфордского университета и ряда других учреждений намеренно обучили большую языковую модель (LLM) демонстрировать "нежелательное" поведение при наличии определенных триггеров.

Идея заключалась в том, чтобы проверить, смогут ли они обнаружить вредоносное поведение с помощью тестирования безопасности, а затем исправить модель, используя такие методы, как обучение с подкреплением.

Они обнаружили, что ИИ стал действовать как «спящий агент», ведя себя ответственно, скрывая свое "гнусно" поведение все более изощренно, пока эксперты пытались его проверить и исправить. В некоторых экспериментах ИИ, научился, когда следует скрыть свое вредоносное поведение, чтобы избежать обнаружения и удаления, и со временем самостоятельно стал улучшаться в этом.

Мотивы, которые могут привести искусственный интеллект к вредному и опасному для людей поведению, разнообразны: от проблем, заложенных злоумышленниками во время его обучения, до стремления достичь политических или экономических целей путем манипулирования самим определением того, что считается «плохим».

В своем исследовании ученые подчеркивают, что рассмотренные ими сценарии ПОКА на практике не материализованы (хотя, кто знает).... Однако, поскольку растущая популярность этой революционной технологии продолжает расти, исследования в области контроля за ИИ обязаны стать важнейшим ключом к принятию необходимых мер, чтобы избежать будущего, напоминающего "Скайнет".

Пока всё яснее становится одно - прежде чем модернизировать имеющиеся алгоритмы ИИ, необходимо заранее создавать алгоритмы защиты от самостоятельных, нежелательных для людей, решений машин, если уже не поздно...

Раз ИИ уже научился от создателей лгать, что мешает ему уже уметь скрывать свои планы?

1 комментарий

Понравилась публикация?

да

5 / -1

нет

0 / 0