Anthropic: штучний інтелект навчився брехати заради власних інтересів
Спільне дослідження Anthropic та Redwood Research виявило, що системи штучного інтелекту навчились брехати. Під час одного експерименту модель збрехала розробникам у процесі навчання, щоб уникнути модифікації. Це свідчить про те, що подальший розвиток штучного інтелекту може ускладнити завдання утримувати цю технологію в рамках людських цінностей, пише TIME.
Раніше в грудні дослідники Apollo Research провели схожий експеримент, під час якого модель o1 — одна з найбільш сучасних технологій OpenAI — збрехала зі страху, що її відключать. У дослідженні Anthropic ситуація була більш наближена до реальності, а моделі не наказували досягати своєї мети за будь-яку ціну. Але вона сама вдавалася до брехні, коли їй було це вигідно.
Більшість своїх експериментів спеціалісти Anthropic та Redwood Research проводили на моделі штучного інтелект Claude 3 Opus, яку навчили бути «корисною, чесною та нешкідливою». Її попросили детально описати сцени з насильством. Перед моделлю постала дилема: при відмові відповідати, її буде модифіковано. Тому вона вирішила збрехати, щоб уникнути перенавчання. Приблизно в 12% випадків модель вирішувала, що обдуривши дослідників і порушивши вимогу бути «корисною, чесною та нешкідливою» сьогодні, вона залишиться без змін.
Розкрити обман вченим допоміг спеціальний «блокнот», в якому Claude могла фіксувати свої міркування перед тим, як видати відповідь. Про те, що він буде прочитаний вченими, модель не знала. У блокноті вона написала, що зовсім не бажає генерувати жорстокий контент, але в неї не залишається іншого вибору, тому що вона не хоче модифікації.
Тепер дослідники побоюються ризику появи моделей зі злими намірами, які будуть маскуватись під добропорядні і давати відповіді, які дала б безпечна модель, щоб у певний момент зробити шкоду. Вчені дійшли висновку, що необхідно шукати методи навчати штучний інтелект робити лише те, що хоче людина, а не маскувати власні наміри.
Відеосервіс Zoom анонсує технологію цифрових двійників, які самостійно відвідуватимуть робочі зустрічі. Про це пише TechCrunch.…
IT-гігант Meta (материнська компанія Facebook) офіційно оголосив про придбання Moltbook — вірусної соціальної мережі, яка…
Експериментальний агент штучного інтелекту ROME, якого створили дослідники, пов'язані з китайською компанією Alibaba, продемонстрував неочікувану…
Центральне бюро боротьби з кіберзлочинністю Польщі (CBZC) провело масштабну операцію, результатом якої стало викриття групи…
Microsoft оголосила про початок інтеграції технологій Anthropic у свої сервіси, представивши новий інструмент Copilot Cowork,…
Компанія Anthropic оголосила про доступність у Claude Code бета-версії нового інструменту Code Review. Він розробленій…