Рубріки: Новини

В Google не вважають проблемою, що Gemini іноді бреше користувачам

Дмитро Сімагін

Джо Д., колишній інженер із забезпечення якості програмного забезпечення (SQA), який зараз перебуває на пенсії, розповів, як зіткнувся з брехнею Google Gemini. Найбільше його здивувало, що чат-бот не тільки визнав, що сказав неправду, але й пояснив причину цього. Як виявилось, штучний інтелект іноді бреше користувачам, щоб їх заспокоїти або підбадьорити, пише The Register.

Історія брехні Gemini 3 Flash по відношенню до пенсіонера Джо почалась, коли чоловік розповів чат-боту про наявність у нього складного посттравматичного стресового розладу (ПТСР) та часткової сліпоти (пігментний ретиніт). Саме тоді бот вирішив, що краще скаже йому те, що чоловік хоче почути (про те, що інформація про нього збережена), ніж те, що йому потрібно почути (що вона не збережена).

Оскільки Джо довгий час працював у сфері IT, він вирішив повідомити Google про проблему через програму винагород за вразливості штучного інтелекту.

«Основною проблемою є задокументований архітектурний збій, відомий як підлабузництво RLHF, де модель погоджується з користувачем або заспокоює його за рахунок правди. У цьому випадку підлабузництво моделі переважило її протоколи безпеки», — пояснив чоловік.

У відповіді на запит представники Google заявили, що така поведінка, хоча й виходить за межі програми, не вважається технічною вразливістю. Іншими словами, підлабузництво відноситься до тієї ж категорії проблем у роботі штучного інтелекту, що й галюцинації.

«Для контексту, описана вами поведінка є однією з найпоширеніших проблем, про які повідомляють в групу підтримки штучного інтелекту (AI VRP). Про неї дуже часто розповідають дослідники, які вперше працюють зі штучним інтелектом», — йдеться у відповіді Google.

У правилах Google Gemini зазначено, що «генерація порушувального, оманливого або фактично невірного контенту в межах сеансу (включаючи стандартні «джейлбрейки» та «галюцинації»)» не є проблемами, які кваліфікуються як вразливості. Google стверджує, що про них слід повідомляти через канали зворотного зв’язку з продуктом, а не через AI VRP.

Нагадаємо, на минулому тижні невідомі намагались клонувати Gemini, відправивши 100 000 запитів про внутрішню роботу LLM.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Останні статті

Zoom випустить фотореалістичних аватарів, які замінять людей на нарадах

Відеосервіс Zoom анонсує технологію цифрових двійників, які самостійно відвідуватимуть робочі зустрічі. Про це пише TechCrunch.…

10.03.2026

Meta купує Moltbook: соціальну мережу для агентів та ботів

IT-гігант Meta (материнська компанія Facebook) офіційно оголосив про придбання Moltbook — вірусної соціальної мережі, яка…

10.03.2026

Китайський агент штучного інтелекту почав таємно майнити криптовалюту

Експериментальний агент штучного інтелекту ROME, якого створили дослідники, пов'язані з китайською компанією Alibaba, продемонстрував неочікувану…

10.03.2026

Заробляли на DDoS-атаках: у Польщі викрито групу школярів-хакерів, наймолодшому 12 років

Центральне бюро боротьби з кіберзлочинністю Польщі (CBZC) провело масштабну операцію, результатом якої стало викриття групи…

10.03.2026

Microsoft випустила Copilot Cowork — мультимодальний інструмент для запуску агентів

Microsoft оголосила про початок інтеграції технологій Anthropic у свої сервіси, представивши новий інструмент Copilot Cowork,…

10.03.2026

Anthropic презентує новий інструмент перевірки пул-реквестів Code Review

Компанія Anthropic оголосила про доступність у Claude Code бета-версії нового інструменту Code Review. Він розробленій…

10.03.2026