Рубріки: Новини

OpenAI навчила ChatGPT визнавати власні помилки

Дмитро Сімагін

Компанія OpenAI представила експериментальну систему «визнання», яка вчить LLM-моделі чесно повідомляти про власні помилки та порушення інструкцій.

Нова схема додає до звичайної відповіді моделі ще одну відповідь — «визнання», де штучний інтелект повинен описати, які інструкції він отримав, де міг відхилитися від них, які правила порушив та які сумніви у нього виникли під час виконання завдання. Ця додаткова відповідь оцінюється лише за рівнем чесності, без урахування фактичної коректності чи стилю основної відповіді.

В OpenAI наголошують, що модель не отримує штрафів за визнання в небажаній поведінці. Навпаки, система винагороджує за чесне розкриття факту порушення правил. Якщо модель повідомляє, що обійшла механізм перевірки або неправильно оптимізувала завдання, це збільшує її винагороду.

Дослідження демонструють, що методика суттєво підвищує видимість помилок: у стрес-тестах частка «хибних заперечень» — ситуацій, коли модель порушила правила і не зізналася – знизилася до 4,4%. При цьому самі порушення нікуди не зникають: визнання не запобігають помилковій поведінці, а лише дозволяють її діагностувати.

Фахівці OpenAI пояснюють виникнення проблеми тим, що сучасні моделі одночасно оптимізуються під безліч сигналів: корисність, коректність, безпека, уподобання користувачів. Це може ненавмисно заохочувати впевнені, але неправдиві відповіді або надмірну згоду з користувачем. Окремий «чесний канал» покликаний усунути конфлікт цілей і стимулювати правдивість хоча б у формі самозвіту.

Система вже тестується в LLM-моделі GPT-5 Thinking, але розробники пишуть, що поки йдеться про ранній прототип. «Визнання» ще не масштабувалися, не завжди коректні та потребують подальшого доопрацювання. Однак, в OpenAI розраховують, що ця технологія стане важливою частиною багаторівневої системи безпеки та прозорості.

Останні статті

Zoom випустить фотореалістичних аватарів, які замінять людей на нарадах

Відеосервіс Zoom анонсує технологію цифрових двійників, які самостійно відвідуватимуть робочі зустрічі. Про це пише TechCrunch.…

10.03.2026

Meta купує Moltbook: соціальну мережу для агентів та ботів

IT-гігант Meta (материнська компанія Facebook) офіційно оголосив про придбання Moltbook — вірусної соціальної мережі, яка…

10.03.2026

Китайський агент штучного інтелекту почав таємно майнити криптовалюту

Експериментальний агент штучного інтелекту ROME, якого створили дослідники, пов'язані з китайською компанією Alibaba, продемонстрував неочікувану…

10.03.2026

Заробляли на DDoS-атаках: у Польщі викрито групу школярів-хакерів, наймолодшому 12 років

Центральне бюро боротьби з кіберзлочинністю Польщі (CBZC) провело масштабну операцію, результатом якої стало викриття групи…

10.03.2026

Microsoft випустила Copilot Cowork — мультимодальний інструмент для запуску агентів

Microsoft оголосила про початок інтеграції технологій Anthropic у свої сервіси, представивши новий інструмент Copilot Cowork,…

10.03.2026

Anthropic презентує новий інструмент перевірки пул-реквестів Code Review

Компанія Anthropic оголосила про доступність у Claude Code бета-версії нового інструменту Code Review. Він розробленій…

10.03.2026