Штучний інтелект поки не може замінити фрілансерів-кодерів, але цей день наближається
Дослідники з консалтингової компанії PeopleTec (Алабама, США) вирішили порівняти, як чотири LLM-моделі справляються з роботою фріланс-програмістів. Як виявилось, найкраща модель виконала приблизно 80% завдань з кодування, тоді як досвідчений фрілансер може виконати 96% завдань. Про це повідомляє The Register.
Використовуючи набір даних Kaggle про завдання на платформі Freelancer.com, автори дослідження створили набір із 1115 завдань з програмування та аналізу даних, які можна було оцінити за допомогою автоматизованих тестів. У експерименті взяли участь чотири LLM-моделі: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 та Mistral, перші дві з яких є комерційні моделі, а дві останні – з відкритим вихідним кодом.
У підсумку модель Claude 3.5 Haiku трохи перевершила GPT-4o-mini. Інші моделі продемонстрували гірші результати.
«Claude розв’язав 877 завдань, усі тести пройшли успішно, що становить 78,7% від бенчмарку — дуже високий бал для такого різноманітного набору завдань. GPT-4o-mini трохи відстала, розв’язавши 862 завдання (77,3%). Qwen 2.5 був третім найкращим, розв’язавши 764 завдання (68,5%). Mistral 7B відставав, розв’язавши 474 завдання (42,5%)».
Незважаючи на те, що моделі штучного інтелекту поки не можуть замінити фрілансерів-кодерів, дослідники впевнені, що цей день незабаром настане. «Я думаю, що це може зайняти місяці», — стверджує Девід Ноевер, головний науковий співробітник PeopleTec.
Одним із цікавих висновків цього дослідження, за словами Ноевера, є те, що моделі з відкритим кодом досягають 30 мільярдів параметрів. «Це якраз на межі можливостей споживчого графічного процесора», — сказав він. «Я думаю, що Codestral, ймовірно, одна з найсильніших [з цих моделей з відкритим кодом], але вона не зможе виконати ці завдання. …Тож, у міру розвитку подій, я думаю, що для цього треба інфраструктура. Просто немає іншого шляху».
Відеосервіс Zoom анонсує технологію цифрових двійників, які самостійно відвідуватимуть робочі зустрічі. Про це пише TechCrunch.…
IT-гігант Meta (материнська компанія Facebook) офіційно оголосив про придбання Moltbook — вірусної соціальної мережі, яка…
Експериментальний агент штучного інтелекту ROME, якого створили дослідники, пов'язані з китайською компанією Alibaba, продемонстрував неочікувану…
Центральне бюро боротьби з кіберзлочинністю Польщі (CBZC) провело масштабну операцію, результатом якої стало викриття групи…
Microsoft оголосила про початок інтеграції технологій Anthropic у свої сервіси, представивши новий інструмент Copilot Cowork,…
Компанія Anthropic оголосила про доступність у Claude Code бета-версії нового інструменту Code Review. Він розробленій…