Google випустила модель для роботи з user-інтерфейсом Gemini 2.5 Computer Use
Команда Google DeepMind представила нову LLM-модель Gemini 2.5 Computer Use. Вона здатна діяти в інтерфейсі сайту або програми. Доступ до новинки вже відкрито через Gemini API в Google AI Studio та Vertex AI. Також всі бажаючі можуть ознайомитись з Gemini 2.5 Computer Use на Browserbase. Про це пише Neowin.
Для роботи з моделлю потрібно надіслати текстове завдання, вхідні дані зі скріншотом екрану та історією попередніх кроків. Після цього LLM проаналізує отримані вхідні дані, згенерує відповідь та зробить новий скріншот. Потім цикл повторюється, поки завдання буде виконано. За це відповідає новий інструмент computer_use, доступний у Gemini API.
Робота з Gemini 2.5 Computer Use поки можлива тільки в браузері — в Google пояснили, що для управління на рівні настільної ОС модель поки не оптимізована.
У демонстраціях Gemini 2.5 Computer Use справляється із заповненням форм, вибором пунктів у списках, авторизацією на сайтах, перенесенням даних між сервісами та організацією елементів на дошках. Google наголошує, що модель працює з реальними веб-сторінками, включаючи сторінки з доступом за логіном. Це може значно спростити автоматизацію корпоративних інтерфейсів та типові офісні завдання.
Якщо модель в чомусь не впевнена, вона може запросити підтвердження у користувача. Наприклад, воно знадобиться, якщо дія пов’язана з купівлею товару.
Поки Computer Use перебуває у стадії preview. Google попереджає, що фокус зміщений на стабільну роботу у браузері та безпеку: кожна дія моделі проходить зовнішню перевірку, небезпечні сценарії (обхід капчі, втручання у пристрої) блокуються. Плани подальшого розвитку новинки поки що не розкриваються.
Відеосервіс Zoom анонсує технологію цифрових двійників, які самостійно відвідуватимуть робочі зустрічі. Про це пише TechCrunch.…
IT-гігант Meta (материнська компанія Facebook) офіційно оголосив про придбання Moltbook — вірусної соціальної мережі, яка…
Експериментальний агент штучного інтелекту ROME, якого створили дослідники, пов'язані з китайською компанією Alibaba, продемонстрував неочікувану…
Центральне бюро боротьби з кіберзлочинністю Польщі (CBZC) провело масштабну операцію, результатом якої стало викриття групи…
Microsoft оголосила про початок інтеграції технологій Anthropic у свої сервіси, представивши новий інструмент Copilot Cowork,…
Компанія Anthropic оголосила про доступність у Claude Code бета-версії нового інструменту Code Review. Він розробленій…