В интерфейсе чат-бота DeepSeek появился новый режим «Распознавание» — рядом с режимами «Быстрый» и «Эксперт». В этом режиме можно загрузить и проанализировать изображения: описать сцену или объект, распознать текст на фото, разобрать интерфейс или скриншот, и прочее.
Сейчас функция доступна в тестовом режиме в веб-версии и мобильном приложении DeepSeek после обновления. Компания публично запуск пока не анонсировала. Детали в материале Postium.
Читайте также: Нейросети для распознавания текста на фото
«Распознавание» изображений в DeepSeek — что и как работает
«Распознавание» в DeepSeek — это режим понимания изображений внутри чат-бота. Он добавляет в обычный чат работу с визуальными данными: пользователь может загрузить фотографию, документ, таблицу, скриншот или изображение сайта, а модель анализирует содержимое и отвечает по нему.
Режим умеет распознавать текст на изображениях, разбирать интерфейсы и структурированные данные, описывать сцены и объекты, а также работать с документами и таблицами прямо в диалоге. Можно загрузить загрузить до 50 документов или изображений, до 100 МБ каждый.
Как распознать текст на фото с помощью DeepSeek
Если режим появился в аккаунте, выберите «Распознавание» рядом с «Быстрым» и «Экспертом». После этого загрузите изображение в чат через иконку скрепки.
Дальше напишите, что нужно сделать. Например: «Распознай текст на фото и пришли его в ответе». DeepSeek проанализирует изображение и вернёт текст прямо в чате.
В режиме глубокого мышления можно давать более сложные задачи. Например: сначала попросить модель описать картинку, а затем — написать промт для генерации похожего изображения.
Ещё один пример запроса: «Проанализируй скриншот интерфейса и напиши HTML-код для похожей страницы».
Если режима нет, включить его вручную пока нельзя. Доступ зависит от тестирования.
Почему это важно? Новый режим закрывает задачи, где пользователю проще показать изображение, чем писать запрос с нуля. Это может быть скриншот интерфейса, таблица, документ, страница сайта или фотография.
Для DeepSeek это ещё один шаг в сторону мультимодального чат-бота. Сервис начинает работать не только с текстом, но и с визуальными данными внутри одного диалога.
Ранее компания выпустила ИИ-модели линейки DeepSeek-V4. В неё вошли две MoE-модели: V4-Pro с 1,6 трлн параметров и V4-Flash с 284 млрд параметров.
Итог: DeepSeek начал открывать доступ к новому режиму «Распознавание», который добавляет в чат анализ изображений, документов, таблиц и интерфейсов.







