Рубріки: Новини

DeepSeek стверджує, що її оновлена ​​модель R1 краще справляється з програмуванням

Дмитро Сімагін

Китайський стартап DeepSeek заявив, що його оновлена LLM-​​модель R1 може виконувати математичні обчислення, програмування та загальну логіку краще, ніж попередня версія, при цьому менше викликає галюцинації. Про це повідомляє Bloomberg.

У примітках до оновленого релізу, який викладено на Hugging Face 28 травня, стверджується, що нова версія моделі відрізняється більшою глибиною мислення, ніж перша версія, яку представили в січні. 

«Її загальна продуктивність зараз наближається до продуктивності провідних моделей, таких як o3 від OpenAI та Gemini 2.5 Pro від Google», — заявили в DeepSeek.

Водночас, китайський стартап наголошує, що останнє оновлення є «незначним», очевидно, натякаючи, що більшого прориву слід чекати в наступному повноцінному релізі.

Модель DeepSeek R1 має 685 мільярдів параметрів і довжину контекстного вікна в 128 тисяч токенів. Однак найбільшою перевагою моделі є те, що вона, на відміну від більшості американських аналогів, має відкритий код. Хоча R1 навряд чи можна запустити на обладнання споживчого рівня, вона доступна для вільного завантаження та запуску на професійному обладнанні.

Помірна вартість (лише $6 млн) і короткий термін розробки R1 свого часу шокували світові ринки, викликавши занепокоєння, що IT-гіганти США надмірно витрачають гроші на інфраструктуру.

Останні статті

Zoom випустить фотореалістичних аватарів, які замінять людей на нарадах

Відеосервіс Zoom анонсує технологію цифрових двійників, які самостійно відвідуватимуть робочі зустрічі. Про це пише TechCrunch.…

10.03.2026

Meta купує Moltbook: соціальну мережу для агентів та ботів

IT-гігант Meta (материнська компанія Facebook) офіційно оголосив про придбання Moltbook — вірусної соціальної мережі, яка…

10.03.2026

Китайський агент штучного інтелекту почав таємно майнити криптовалюту

Експериментальний агент штучного інтелекту ROME, якого створили дослідники, пов'язані з китайською компанією Alibaba, продемонстрував неочікувану…

10.03.2026

Заробляли на DDoS-атаках: у Польщі викрито групу школярів-хакерів, наймолодшому 12 років

Центральне бюро боротьби з кіберзлочинністю Польщі (CBZC) провело масштабну операцію, результатом якої стало викриття групи…

10.03.2026

Microsoft випустила Copilot Cowork — мультимодальний інструмент для запуску агентів

Microsoft оголосила про початок інтеграції технологій Anthropic у свої сервіси, представивши новий інструмент Copilot Cowork,…

10.03.2026

Anthropic презентує новий інструмент перевірки пул-реквестів Code Review

Компанія Anthropic оголосила про доступність у Claude Code бета-версії нового інструменту Code Review. Він розробленій…

10.03.2026