AI

Google представила Agentic Vision — Gemini научилась «зумить» изображения для точного анализа

Google представила Agentic Vision — Gemini научилась «зумить» изображения для точного анализа

Компания анонсировала Agentic Vision — новую функцию для , которая позволяет модели не просто «смотреть» на изображение, а работать с ним: приближать детали, вырезать фрагменты и перепроверять выводы на основе того, что реально видно.

Функция уже доступна разработчикам через Gemini API в Google AI Studio и Vertex AI. В приложении Gemini инструмент Agentic Vision начинает появляться при выборе режима «Thinking» — раскатка идёт постепенно. Подробности в материале Postium.

Читайте также: сети для распознавания текста на фото

Agentic Vision в Gemini — что это и как работает

Agentic Vision меняет сам подход к визуальному анализу. Вместо одного прохода по изображению модель действует итеративно: формирует план, выполняет действие над визуальным входом и снова анализирует результат.

Google представила Agentic Vision — Gemini научилась «зумить» изображения для точного анализа

Google представила Agentic Vision — Gemini научилась «зумить» изображения для точного анализа

В роли «действий» используется выполнение кода — Gemini может сама сгенерировать Python-код, чтобы приблизить участок картинки, обрезать его, повернуть, разметить, посчитать объекты или извлечь данные, а затем уже выдать ответ.

Ключевая идея — не догадываться, а проверять. Если на изображении есть мелкие цифры, подписи или плотные таблицы, модель сначала приближает нужный участок и только потом делает вывод.

Раньше мультимодальные модели часто ошибались на мелких деталях и сложных визуальных данных, потому что «смотрели» на изображение целиком. Agentic Vision добавляет промежуточные шаги и вычисления, из-за чего ответы становятся более проверяемыми.

Как пользоваться

Разработчикам нужно включить инструмент Code Execution в AI Studio или использовать API через Vertex AI — после этого нейросеть сможет сама выполнять визуальные операции.

В приложении Gemini функция доступна через выбор модели и режим «Thinking», без дополнительных настроек.

Почему это важно? Agentic Vision — это шаг от «угадывания» к более точному анализу изображений. В задачах, где ошибка в одной цифре влияет на результат — документы, схемы, таблицы, визуальная математика, — возможность приблизить и пересчитать важнее красивого, но неточного ответа.

Таким образом, Google учит ИИ-модель не просто принимать информацию, а активно искать недостающие фрагменты внутри предоставленных файлов, конкурируя с решениями от и Anthropic в точности «зрения».

Итог: Gemini получила «активное зрение»: модель теперь сама приближает, обрабатывает и проверяет изображения, что делает анализ визуальных данных заметно точнее.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

2 × три =

Кнопка «Наверх»