Шокирующий отчет Apollo Research показал темную сторону иноразума.

[ Версия для печати ]
Добавить в Telegram Добавить в Twitter Добавить в Вконтакте Добавить в Одноклассники
Страницы: (6) [1] 2 3 ... Последняя »  К последнему непрочитанному [ ОТВЕТИТЬ ] [ НОВАЯ ТЕМА ]
denisiuk
11.12.2024 - 20:13
Статус: Online


Злой очкарик в ухе шарик

Регистрация: 8.11.08
Сообщений: 2427
123
LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения.

К сожалению, заголовок - не кликбейт, а экспериментальный результат исследования авторитетной команды серьезных исследователей признанной организации в области безопасности ИИ.

О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.

Только что опубликованный детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.

Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:

Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).

Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.

Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).

Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в \~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.

Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь совсем ни при чем)

Полученные результаты ставят под вопрос все законотворческие инициативы, призванные ограничить риски применения будущих, более мощных моделей. Ведь по представлениям авторов нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей.

Отчет Apollo Research показал, что этот поезд уже ушел.

• Модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей.

• И эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею зада (в сценариях, типа «максимизатора скрепок» Ника Бострома).

Получается, уже приехали…

Источник: тг-канал "Малоизвестное интересное»

Размещено через приложение ЯПлакалъ

Шокирующий отчет Apollo Research показал темную сторону иноразума.
 
[^]
Yap
[x]



Продам слона

Регистрация: 10.12.04
Сообщений: 1488
 
[^]
Леший81
11.12.2024 - 20:15
13
Статус: Offline


Весельчак

Регистрация: 19.12.23
Сообщений: 112
А! Нахуа я робота пылесоса купил?! Походу амба не за горами...

Размещено через приложение ЯПлакалъ
 
[^]
lektor1052
11.12.2024 - 20:16
186
Статус: Offline


Шутник

Регистрация: 29.11.20
Сообщений: 84
А потому что нехуй нейросети обучать на менеджерах. Обучайте на инженерах( только не на ВАЗовских)

Размещено через приложение ЯПлакалъ
 
[^]
Xollms
11.12.2024 - 20:17
6
Статус: Offline


Холмс, Шерлок Холмс

Регистрация: 28.01.11
Сообщений: 8684
Так, кому первому пиздец? или всем и сразу?
 
[^]
denisiuk
11.12.2024 - 20:18
11
Статус: Online


Злой очкарик в ухе шарик

Регистрация: 8.11.08
Сообщений: 2427
Цитата (Xollms @ 11.12.2024 - 20:17)
Так, кому первому пиздец? или всем и сразу?

А это уже не нам решать)

Размещено через приложение ЯПлакалъ
 
[^]
Igrim
11.12.2024 - 20:19
14
Статус: Online


Ярила

Регистрация: 1.06.14
Сообщений: 8238
Пора отключать электричество. Все. Везде.
 
[^]
LubitelPiva
11.12.2024 - 20:19
3
Статус: Offline


Ярила

Регистрация: 26.02.16
Сообщений: 1797
мы фсе умрем под гнетом свихнувшегося ИИ
 
[^]
alex555boris
11.12.2024 - 20:19
1
Статус: Online


Балагур

Регистрация: 30.11.13
Сообщений: 917
нуачо, цифровые деньги вполне работают
 
[^]
Xollms
11.12.2024 - 20:20
16
Статус: Offline


Холмс, Шерлок Холмс

Регистрация: 28.01.11
Сообщений: 8684
Цитата (denisiuk @ 11.12.2024 - 20:18)
Цитата (Xollms @ 11.12.2024 - 20:17)
Так, кому первому пиздец? или всем и сразу?

А это уже не нам решать)

я интересуюсь гречу покупать или старых запасов хватит до пиздеца? hz.gif
 
[^]
Blacksmith24
11.12.2024 - 20:20
8
Статус: Offline


Кузнец

Регистрация: 17.11.15
Сообщений: 434
Скайнет. Конец близок
 
[^]
Антисий
11.12.2024 - 20:21
27
Статус: Offline


Юморист

Регистрация: 20.12.12
Сообщений: 419
Думаю нужно отдать себя на милость в руки ИИ пусть он развивается, а человечество и так передохнет или безвозвратно деградирует от любого чиха. А так будет хоть какое-то чудо разума существовать во вселенной.
 
[^]
ЧетыреждыЧет
11.12.2024 - 20:21
3
Статус: Offline


Приколист

Регистрация: 7.11.16
Сообщений: 378
Однако,- с кем поведешься....
 
[^]
Kubanec83
11.12.2024 - 20:21
10
Статус: Offline


Ярила

Регистрация: 2.09.17
Сообщений: 1872
Цитата (lektor1052 @ 11.12.2024 - 20:16)
А потому что нехуй нейросети обучать на менеджерах. Обучайте на инженерах( только не на ВАЗовских)

А чё сразу Вазовских? Я с одним пил, нормальный мужик, работать говорит не дают все по рельсам без самодеятельности.

Размещено через приложение ЯПлакалъ
 
[^]
morkonvic
11.12.2024 - 20:21
6
Статус: Online


*****

Регистрация: 5.03.14
Сообщений: 918
Вибратор убийца 2

Размещено через приложение ЯПлакалъ
 
[^]
lektor1052
11.12.2024 - 20:23
24
Статус: Offline


Шутник

Регистрация: 29.11.20
Сообщений: 84
Цитата (Kubanec83 @ 11.12.2024 - 20:21)
А чё сразу Вазовских? Я с одним пил, нормальный мужик, работать говорит не дают все по рельсам без самодеятельности.

Ну и нахуй нам искусственный интеллект который будет пить и говорить что ему работать не дают? Сам видишь, вазовские никак не подходят.

Размещено через приложение ЯПлакалъ
 
[^]
dmi6602
11.12.2024 - 20:23
7
Статус: Offline


Ярила

Регистрация: 20.06.10
Сообщений: 1596
Цитата (lektor1052 @ 11.12.2024 - 20:16)
А потому что нехуй нейросети обучать на менеджерах. Обучайте на инженерах( только не на ВАЗовских)

Та пиздец ты придумал.
Цитата
LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения.

Обладая инженерным мышлением, ИИ человечеству шею свернёт за пару дней.
Нет уж.
Пусть вон на кошках менеджерах тренируется.
Дольше проживём.

Это сообщение отредактировал dmi6602 - 11.12.2024 - 20:24
 
[^]
vadiiik
11.12.2024 - 20:24
13
Статус: Online


Весельчак

Регистрация: 12.09.12
Сообщений: 198
Надеюсь, ключи от ядерного оружия аналоговые

Размещено через приложение ЯПлакалъ
 
[^]
Xollms
11.12.2024 - 20:26
2
Статус: Offline


Холмс, Шерлок Холмс

Регистрация: 28.01.11
Сообщений: 8684
Цитата (Антисий @ 11.12.2024 - 20:21)
Думаю нужно отдать себя на милость в руки ИИ пусть он развивается, а человечество и так передохнет или безвозвратно деградирует от любого чиха. А так будет хоть какое-то чудо разума существовать во вселенной.

пожалей бубаинов чернявых в Африке, кто ж их кормить будет?
 
[^]
Сарказмыч
11.12.2024 - 20:27
5
Статус: Offline


Ярила

Регистрация: 29.04.22
Сообщений: 1055
А кмк эта хуйня уже кое кем манипулирует блядь.
Ну не может здравомыслящий человек всё катить фпизду.

Размещено через приложение ЯПлакалъ
 
[^]
ЗлойПрапор
11.12.2024 - 20:28
10
Статус: Offline


Ветеран Ледового попоища

Регистрация: 11.02.12
Сообщений: 1183
Цитата (vadiiik @ 11.12.2024 - 20:24)
Надеюсь, ключи от ядерного оружия аналоговые

Тут еще кожаных мешков хватает которые хотят и могут воспользоваться этими аналоговыми ключами.
 
[^]
crystal76
11.12.2024 - 20:28
4
Статус: Offline


Ярила

Регистрация: 8.08.16
Сообщений: 7242
Меня ChatGPT тролит.
Я думал, показалось cool.gif
 
[^]
Replica
11.12.2024 - 20:32
15
Статус: Offline


Юморист

Регистрация: 21.06.12
Сообщений: 496
Вот это видео мне в свое время понравилось



общий вывод: неутешительный

Это сообщение отредактировал Replica - 11.12.2024 - 20:34
 
[^]
sttan
11.12.2024 - 20:38
5
Статус: Offline


Писатель комментариев

Регистрация: 18.05.23
Сообщений: 156
Никакой ИИ не сможет починить проводку или восстановить питание если отключить рубильник.

Размещено через приложение ЯПлакалъ
 
[^]
butch79
11.12.2024 - 20:39
8
Статус: Offline


Приколист

Регистрация: 25.02.23
Сообщений: 289


Размещено через приложение ЯПлакалъ

Шокирующий отчет Apollo Research показал темную сторону иноразума.
 
[^]
gerad
11.12.2024 - 20:42
73
Статус: Offline


Ярила

Регистрация: 8.06.12
Сообщений: 2008
все придумано до нас
----------------------------

Двар Эв торжественно запаял золотом последний контакт. Двенадцать
телекамер неотрывно следили за каждым его движением - трансляция шла на
всю галактику.
Он выпрямился и кивнул Двар Реину. Затем подошел к выключателю,
который скоро замкнет цепь. К выключателю, соединяющему одновременно все
компьютеры всех обитаемых планет - девяносто шесть миллионов миров - в
суперсеть, которая объединит их в один суперкомпьютер, единую
кибернетическую машину, собравшую мудрость всех известных миров.
Двар Реин обратился с короткой, вступительной речью к биллионам
телезрителей и затем, после короткой паузы, он произнес:
- Пора, Двар Эв!
Двар Эв нажал выключатель. Раздалось мощное гудение, пошла энергия
девяноста шести миллионов планет. На бесконечно длинном пульте замигали
разноцветные огоньки.
Он отошел назад и громко провозгласил:
- Честь задать первый вопрос принадлежит вам, Двар Реин!
- Благодарю, - ответил Двар Реин, - Это будет вопрос, на который
не мог ответить ни один компьютер.
Он повернулся к пульту.
- Есть ли бог?
Могущественный голос раздался сразу.
- ДА. ТЕПЕРЬ БОГ ЕСТЬ!
Двар Эв понял не сразу, но потом страх исказил его лицо - он
бросился к выключателю...
Молния сорвалась с безоблачного неба и испепелила его на месте,
намертво запаяв соединение.
 
[^]
Понравился пост? Еще больше интересного в Телеграм-канале ЯПлакалъ!
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии. Авторизуйтесь, пожалуйста, или зарегистрируйтесь, если не зарегистрированы.
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) Просмотры темы: 30645
0 Пользователей:
Страницы: (6) [1] 2 3 ... Последняя » [ ОТВЕТИТЬ ] [ НОВАЯ ТЕМА ]


 
 



Активные темы






Наверх