Ваш регион определился как: Москва
или
Эксперт направления

Потоковое сканирование и распознавание документов в 1С

≈ 23 мин
Актуально на: 10 мая 2026
Потоковое сканирование и распознавание документов в 1С

Сканирование и распознавание документов в 1С:Документооборот позволяют автоматизировать обработку входящих файлов, сократить ручной ввод и ускорить бизнес-процессы. В статье рассмотрим, как потоковое сканирование и OCR-технологии обеспечивают быстрое извлечение данных из PDF, изображений и сканов с минимальным участием пользователя.

Современные компании ежедневно обрабатывают десятки и сотни входящих файлов: счета, акты, договоры, первичную бухгалтерию. Значительная часть информации поступает в виде PDF, PNG и сканов бумажных документов, что требует ручного ввода данных и увеличивает нагрузку на сотрудников.

Использование инструментов OCR в 1C позволяет автоматизировать этот процесс. 1С:Документооборот распознавание документов обеспечивает автоматическую обработку файлов, ускоряет ввод данных и снижает количество ошибок в работе на 80%.

Какие задачи решает сканирование и распознавание в 1С

Использование 1С в части сканирования и распознавания позволяет автоматизировать ключевые процессы:

  • обработка документов выполняется автоматически;
  • сокращается время на ввод данных в базе;
  • упрощается работа бухгалтерии и других подразделений;
  • ускоряется поиск информации в системе;
  • повышается прозрачность документооборота.

Система 1С позволяет извлекать текстовый слой из файлов и использовать его в дальнейшей работе.

Процесс обработки документов в 1С включает несколько этапов:

  1. Сканирование документа или загрузка файла
  2. Передача файла в OCR-сервис
  3. Выполнение распознавания текста
  4. Заполнение карточки документа
  5. Запуск маршрута обработки

В результате сканирования и распознавания данные автоматически попадают в систему и становятся доступными для поиска и анализа.

Ниже представлена схема, отражающая процесс сканирования и распознавания документов.

Потоковое сканирование и распознавание документов в 1С

Какие компоненты необходимо установить для работы с файлами в 1С

Для корректной работы сканирования и обработки документов на сервере 1C требуется установка дополнительных утилит. Они обеспечивают распознавание документов, полнотекстовый поиск и корректную обработку файлов различных форматов.

Важно: все компоненты должны быть установлены в той же среде, где развернут сервер 1C. Описанная схема работы актуальна для серверов на базе Microsoft Windows. Для других операционных систем требуется отдельная настройка и подбор альтернативных инструментов.

Поддержка полнотекстового поиска: IFilter

Для работы с текстовыми PDF-файлами используется компонент IFilter. Он позволяет системе выполнять поиск по содержимому документов, а не только по их атрибутам.

IFilter применяется в следующих вариантах:

  • файловая база или клиент-серверная архитектура с 32-битным сервером;
  • клиент-серверная версия с 64-битным сервером;
Потоковое сканирование и распознавание документов в 1С

После установки IFilter система 1C получает возможность индексировать текстовые данные и использовать их в поиске и обработке документов.

Различия PDF-файлов: почему это важно

На практике встречаются два типа PDF:

  1. PDF с текстовым слоем;
  2. PDF, содержащие только изображения (результат сканирования);

Это принципиально влияет на обработку:

  • текстовые PDF обрабатываются напрямую через IFilter;
  • изображения требуют дополнительного этапа OCR;

Именно на этом этапе подключается cuneiform 1C:Документооборот или альтернативные сервисы.

Потоковое сканирование и распознавание документов в 1С

После настройки системы распознавания можно нажать на кнопку «Установить компоненту CuneiForm» для установки COM-компоненты CuneiForm. Кроме установки компоненты распознавания необходимо установить и само приложение CuneiForm. Данное приложение является свободно-распространяемым и его можно скачать на сайте. После скачивания дистрибутива OCR CuneiForm V.12, запустите файл setup.exe и нажмите кнопку «Далее».

После установки OCR-компонента cuneiform 1С:Документооборот система готова к работе, но распознавание не начинается автоматически, его нужно правильно настроить и запустить.

Шаг 1. Добавление файлов в очередь на распознавание

Если в системе уже есть загруженные сканы или изображения, их можно отправить на обработку:

  1. Откройте карточку файла
  2. Перейдите на вкладку «Извлечённый текст»
  3. Установите признак:
    • «Нужно распознать» — файл будет добавлен в очередь
    • «Не нужно распознавать» — файл не будет обрабатываться
Потоковое сканирование и распознавание документов в 1С

Также можно использовать команду «Сформировать очередь…», чтобы массово добавить файлы в обработку.

После этого все новые файлы, загружаемые в систему, будут автоматически помечаться как требующие распознавания.

Шаг 2. Проверка и запуск регламентного задания

Распознавание выполняется через фоновое задание:

  1. Перейдите в раздел «Администрирование»
  2. Откройте блок «Поддержка и обслуживание»
  3. Выберите «Регламентные задания»
  4. Найдите задание:
    «Файлы: Распознавание изображений»

Далее доступны два варианта:

  • нажать «Выполнить сейчас» — для разового запуска
  • или настроить расписание для автоматической обработки

Шаг 3. Особенности запуска в зависимости от режима работы

  • В клиент-серверной базе 1С: задание выполняется автоматически по расписанию;
  • В файловой базе: необходимо вручную запустить сеанс обработки:
    кнопка «Открыть сеанс обработки».

Шаг 4. Что происходит после распознавания

После обработки файла система может работать с результатом по-разному — это настраивается:

  • текст сохраняется во вкладке «Извлечённый текст»
  • создаётся новая версия файла (HTML или TXT)
  • формируется отдельный файл с текстом
  • исходный файл остаётся без изменений

Чаще всего используется первый вариант — текст сохраняется для поиска, а оригинал документа остаётся неизменным.

Шаг 5. Проверка результата

Чтобы посмотреть результат:

  1. Откройте файл
  2. Перейдите на вкладку «Извлечённый текст»
  3. Проверьте корректность распознавания
  4. При необходимости отредактируйте текст вручную

Шаг 6. Если файл не распознался

Если распознавание не выполнено:

  1. Откройте карточку файла;
  2. Проверьте статус (например, «Не удалось распознать»);
  3. Убедитесь, что установлен CuneiForm;
  4. Проверьте качество сканирования;
  5. Установите признак «Нужно распознать» повторно.

После этого файл снова попадёт в очередь обработки.

Обработка сканов: OCR и подготовка изображений

Если файл получен в результате сканирования, система не может извлечь текст напрямую. В этом случае используется связка инструментов: OCR (например, CuneiForm), обработка изображений, преобразование форматов.

Для этого применяется ImageMagick для 1C:Документооборот, а также Ghostscrip

При загрузке файла в систему выполняется следующий процесс:

  1. PDF-файл передаётся в обработку;
  2. С помощью ImageMagick и Ghostscript каждая страница документа преобразуется в изображения (например, PNG);  
  3. Полученные изображения передаются в OCR (CuneiForm);
  4. Выполняется распознавание текста;
  5. Результат сохраняется в системе.

Таким образом, система разбивает PDF на страницы и обрабатывает их как отдельные изображения.

Связка ImageMagick для 1C:Документооборот и Ghostscript используется как промежуточный слой между файлом и OCR.

Также есть возможность настроить распознавание файлов через Сервис распознавания документов. Сервис работает в тестовом режиме. Он позволяет: выполнять распознавание без установки локальных OCR-инструментов, обрабатывать документы через внешние сервисы, быстрее запустить решение на пилоте.

Настройка — это только первый шаг

Для стабильной работы распознавания и обработки документов требуется регулярное сопровождение системы.

Настройка для распознавания документов в 1С:Документооборот

Современный документооборот невозможно представить без автоматического распознавания документов. В 1С:Документооборот эта задача решается с помощью OCR-технологий, но для корректной работы требуется дополнительная настройка внешних компонентов, одним из ключевых является ImageMagick.

ImageMagick отвечает за преобразование файлов в первую очередь PDF — в графические изображения, которые затем обрабатываются системой распознавания. Без него OCR в 1С работает некорректно или не работает вовсе.

Шаг 1. Настройка распознавания в 1С

После установки утилит необходимо включить распознавание в самой системе.

Перейдите в “Настройка и администрирование” → “Настройка программы” → “Работа с файлами”.

Потоковое сканирование и распознавание документов в 1С
Потоковое сканирование и распознавание документов в 1С

Далее включите опцию «Распознавание изображений (CuneiForm)» активируйте использование ImageMagickукажите путь к файлу magick.exeпри необходимости включите Ghostscript

Путь к ImageMagick задается на сервере, где выполняется обработка файлов. На этом этапе система получает возможность обрабатывать входящие документы и передавать их на распознавание.

Шаг 2. Настройка параметров распознавания

После включения функционала необходимо задать параметры распознавания.

Потоковое сканирование и распознавание документов в 1С

Откройте «Настройки распознавания», выберите язык (например, русский или английский), проверьте корректность путей к установленным программам.

Потоковое сканирование и распознавание документов в 1С
Потоковое сканирование и распознавание документов в 1С

Дополнительно важно зайти в “Персональные настройки” → “Файлы” и продублировать путь к ImageMagick, иначе распознавание может работать нестабильно.  Это частая ошибка, из-за которой система «вроде настроена, но не работает».

Шаг 3. Обработка PDF и работа ImageMagick

​​После загрузки файл автоматически попадает в обработку, далее запускается регламентное задание «Распознавание» и документ получает статус «В обработке». В этот момент пользователь ничего не делает, процесс полностью автоматизирован. 

Потоковое сканирование и распознавание документов в 1С
  • PDF разбивается на страницы;
  • Каждая страница преобразуется в изображение (PNG/JPG);
  • Изображения передаются в OCR (CuneiForm);
  • OCR извлекает текст.
Потоковое сканирование и распознавание документов в 1С

Шаг 4. Просмотр результата распознавания

  • открывается окно с результатом;
  • интерфейс обычно состоит из 3 частей: изображение документа, распознанный текст, структура документа.
Потоковое сканирование и распознавание документов в 1С

Проблемы стандартного OCR в 1С и когда требуется доработка

На первый взгляд может показаться, что встроенного механизма распознавания в 1С:Документооборот достаточно для автоматизации работы с документами. Система действительно позволяет извлекать текст из сканов и PDF-файлов, индексировать его и использовать в поиске. Однако на практике большинство компаний сталкиваются с тем, что стандартный OCR не решает бизнес-задачи в полном объеме.

Основная проблема заключается в том, что OCR в 1С — это базовый инструмент, чувствительный к качеству входящих данных и практически не адаптированный под реальные сценарии документооборота. Точность распознавания напрямую зависит от качества исходного изображения: если документ отсканирован с низким разрешением, имеет перекос, шум, тени или слабый контраст, система начинает допускать ошибки. В таких случаях текст распознается частично или с искажениями, что требует ручной проверки и корректировки.  

Даже при хорошем качестве сканов возникают сложности с обработкой структурированных документов. Счета, акты, накладные и другие формы с таблицами и колонками распознаются некорректно: нарушается логика расположения данных, строки смешиваются, а значения оказываются в неправильных полях. Это связано с тем, что стандартный OCR не анализирует структуру документа, а лишь преобразует изображение в текст, не понимая его смысловой организации.  

Отдельную проблему представляют ошибки в цифрах и реквизитах. Даже незначительное искажение символа, например, замена «0» на «O» или «8» на «3» делает документ непригодным для автоматической обработки. В финансовых и бухгалтерских процессах такие ошибки критичны, поскольку требуют обязательной ручной валидации. В результате компания не получает ожидаемой экономии времени, а сотрудники продолжают проверять данные вручную.

Серьезным ограничением остается и работа с нестандартными элементами документов. Печати, подписи, рукописные пометки, фоновые изображения и водяные знаки создают «шум», который мешает корректному распознаванию. OCR-системы в целом плохо справляются с рукописным текстом и нестандартными шрифтами, что дополнительно снижает качество результата.  

Кроме того, стандартный движок распознавания в 1С не обучается под конкретные типы документов и не адаптируется под особенности бизнеса. Это означает, что система одинаково обрабатывает все входящие файлы, независимо от их структуры и назначения. В условиях, когда у компании десятки форм документов от разных контрагентов, это приводит к нестабильному результату и невозможности масштабировать автоматизацию.

В результате возникает типичная ситуация: формально распознавание в системе настроено, но фактически сотрудники продолжают выполнять значительную часть работы вручную. OCR превращается в вспомогательный инструмент, а не в полноценный механизм автоматизации. Это особенно заметно при росте объема документооборота, когда ручная проверка становится узким местом бизнес-процессов.

Необходимость доработки или внедрения более продвинутого решения возникает в тех случаях, когда компания работает с большим потоком документов, предъявляет высокие требования к точности данных или стремится к полной автоматизации ввода информации в систему. Если требуется автоматически извлекать реквизиты, заполнять документы в 1С, обрабатывать различные шаблоны и исключать ручной труд, стандартного OCR становится недостаточно.

В таких сценариях компании переходят к более сложным решениям: внедряют интеллектуальные OCR-системы, настраивают обработку документов под конкретные шаблоны, добавляют валидацию данных и интеграцию с бизнес-процессами 1С. Это позволяет не просто распознавать текст, а превращать документы в структурированные данные, пригодные для автоматической обработки.

Таким образом, ключевая проблема стандартного OCR в 1С заключается не в отсутствии функциональности, а в ограниченности его применения. Он подходит для базовых задач, но при реальной нагрузке и требованиях бизнеса неизбежно требует доработки или замены на другое решение.

OCR работает нестабильно
или требует постоянной ручной проверки?

Ярослав Кудинов

Ярослав Кудинов

Руководитель проекта, технический архитектор

Мы анализируем текущую схему и настраиваем распознавание под реальные документы и процессы.

    Я даю согласие на обработку персональных данных в соответствии с Политикой конфиденциальности.

    Оцените

    Средняя оценка: 5

    Количество голосов: 11

    Поделитесь с друзьями

    Понравился материал? Подпишитесь на наш деловой обзор.

    Присылаем его не чаще 1-2 раз в месяц, пишем только по делу: дайджесты лучших статей по учету и автоматизации, кейсы, новости о важных для бизнеса изменениях в законодательстве.