Рубріки: Новини

Vibe Checker — нова система оцінки коду від Google DeepMind

Дмитро Сімагін

Дослідники Google DeepMind представили нову систему Vibe Checker, яка оцінює код, згенерований штучним інтелектом, за стандартами, близькими до людських. Про це пише The Decoder.

За словами авторів дослідження, поточні методи оцінки згенерованого коду не відображають того, що справді важливо для програмістів. Розробники цінують не тільки функціональну коректність, а й такі фактори, як обробка помилок, читабельність і логічна узгодженість коду.

Щоб усунути цей розрив, команда DeepMind створила таксономію VeriCode, що включає 30 перевірених правил, згрупованих у п’ять категорій: стиль та угоди, логіка та шаблони, документація та коментарі, обробка помилок, а також робота з бібліотеками та API.

Кожне правило VeriCode пов’язане з конкретною перевіркою лінтера і дає однозначний результат: пройдено чи не пройдено. На основі цієї системи було розроблено Vibe Checker — тестову систему, яка розширює існуючі бенчмарки BigCodeBench та LiveCodeBench. Вона містить понад дві тисячі реальних завдань із програмування.

Під час тестування дослідники випробували 31 мовну модель від різних компаній. Навіть передові LLM показали, що їм складно дотримуватися кількох інструкцій одночасно: при п’яти запитах середній показник успішності знизився майже на 6%. Крім того, був зафіксований ефект «втрати середини» — моделі гірші за інструкціями, розташованими в середині запиту.

Дослідники зазначили, що підхід з поетапним редагуванням допомагає трохи покращити виконання інструкцій, але при цьому погіршується загальну функціональність коду. При порівнянні результатів Vibe Checker з більш ніж 800 тисячами людських оцінок з бази LMArena з’ясувалося, що поєднання двох факторів — функціональної коректності та дотримання інструкцій — набагато краще відображає уявлення розробників про «якісний» код, ніж будь-який з них окремо.

Автори дослідження вважають, що висновки мають змінити підхід до навчання мовних моделей. Наразі більшість систем удосконалюються за допомогою методу Reinforcement Learning with Verifiable Rewards (RLVR), де основна увага приділяється проходженню тестів. Використання VeriCode дозволить додати до процесу навчання розуміння людських критеріїв якості: ясності, структури та логіки.

Google DeepMind планує опублікувати таксономію VeriCode у відкритому доступі та адаптувати її для інших мов програмування. Дослідники впевнені, що такі інструменти допоможуть точніше оцінювати реальні можливості ШІ та зробити машинний код ближчим до стандартів професійної розробки.

Останні статті

Zoom випустить фотореалістичних аватарів, які замінять людей на нарадах

Відеосервіс Zoom анонсує технологію цифрових двійників, які самостійно відвідуватимуть робочі зустрічі. Про це пише TechCrunch.…

10.03.2026

Meta купує Moltbook: соціальну мережу для агентів та ботів

IT-гігант Meta (материнська компанія Facebook) офіційно оголосив про придбання Moltbook — вірусної соціальної мережі, яка…

10.03.2026

Китайський агент штучного інтелекту почав таємно майнити криптовалюту

Експериментальний агент штучного інтелекту ROME, якого створили дослідники, пов'язані з китайською компанією Alibaba, продемонстрував неочікувану…

10.03.2026

Заробляли на DDoS-атаках: у Польщі викрито групу школярів-хакерів, наймолодшому 12 років

Центральне бюро боротьби з кіберзлочинністю Польщі (CBZC) провело масштабну операцію, результатом якої стало викриття групи…

10.03.2026

Microsoft випустила Copilot Cowork — мультимодальний інструмент для запуску агентів

Microsoft оголосила про початок інтеграції технологій Anthropic у свої сервіси, представивши новий інструмент Copilot Cowork,…

10.03.2026

Anthropic презентує новий інструмент перевірки пул-реквестів Code Review

Компанія Anthropic оголосила про доступність у Claude Code бета-версії нового інструменту Code Review. Він розробленій…

10.03.2026