Компания Google анонсировала Agentic Vision — новую функцию для Gemini, которая позволяет модели не просто «смотреть» на изображение, а работать с ним: приближать детали, вырезать фрагменты и перепроверять выводы на основе того, что реально видно.
Функция уже доступна разработчикам через Gemini API в Google AI Studio и Vertex AI. В приложении Gemini инструмент Agentic Vision начинает появляться при выборе режима «Thinking» — раскатка идёт постепенно. Подробности в материале Postium.
Читайте также: Нейросети для распознавания текста на фото
Agentic Vision в Gemini — что это и как работает
Agentic Vision меняет сам подход к визуальному анализу. Вместо одного прохода по изображению модель действует итеративно: формирует план, выполняет действие над визуальным входом и снова анализирует результат.
В роли «действий» используется выполнение кода — Gemini может сама сгенерировать Python-код, чтобы приблизить участок картинки, обрезать его, повернуть, разметить, посчитать объекты или извлечь данные, а затем уже выдать ответ.
Ключевая идея — не догадываться, а проверять. Если на изображении есть мелкие цифры, подписи или плотные таблицы, модель сначала приближает нужный участок и только потом делает вывод.
Раньше мультимодальные модели часто ошибались на мелких деталях и сложных визуальных данных, потому что «смотрели» на изображение целиком. Agentic Vision добавляет промежуточные шаги и вычисления, из-за чего ответы становятся более проверяемыми.
Как пользоваться
Разработчикам нужно включить инструмент Code Execution в AI Studio или использовать API через Vertex AI — после этого нейросеть сможет сама выполнять визуальные операции.
В приложении Gemini функция доступна через выбор модели и режим «Thinking», без дополнительных настроек.
Почему это важно? Agentic Vision — это шаг от «угадывания» к более точному анализу изображений. В задачах, где ошибка в одной цифре влияет на результат — документы, схемы, таблицы, визуальная математика, — возможность приблизить и пересчитать важнее красивого, но неточного ответа.
Таким образом, Google учит ИИ-модель не просто принимать информацию, а активно искать недостающие фрагменты внутри предоставленных файлов, конкурируя с решениями от OpenAI и Anthropic в точности «зрения».
Итог: Gemini получила «активное зрение»: модель теперь сама приближает, обрабатывает и проверяет изображения, что делает анализ визуальных данных заметно точнее.




