Лучшие вопросы
Таймлайн
Чат
Перспективы

Поточное сканирование документов

Из Википедии, свободной энциклопедии

Remove ads

Поточное сканирование документов — один из способов быстрого сканирования и распознавания однотипных бумажных документов, например, для обработки результатов анкетирования широкого круга респондентов.

Первый этап предусматривает ввод документов в поточные сканеры, эффективность его определяется в большей степени качеством используемого оборудования. Системы автоматической подачи документов позволяют достигать скорости оцифровки до 200 изображений в минуту на единицу оборудования.

На этапе распознавания используются программные OCR-компоненты. Качество результирующих записей зависит от степени готовности анкеты к машинному чтению и тщательности предварительной настройки программного обеспечения.

Дальнейшая обработка может предусматривать автоматическую проверку полученных после распознавания данных. Например, для анкетирования наиболее частые проверки — проверка на ожидаемый тип данных (число, флажок, строка), проверка на присутствие значений. Все проблемные места, отмеченные на данном этапе, маркируются для передачи на стадию коррекции.

На этапе ручной коррекции данных оператор обрабатывает информацию, полученную на стадии автоматической проверки, и вносит изменения в результирующую запись вручную (ввод с клавиатуры, выбор из списка заранее заданных ответов). На данном этапе может производиться дообучение программного комплекса. Все накопленные правки анализируются алгоритмами и применяются для дальнейшей работы с данным набором анкет.

На этапах сканирования и распознавания анкет важную роль играет применяемая техника. При использовании поточного сканирующего оборудования и достаточно мощных станций распознавания возможно обрабатывать до 96 тыс. документов за рабочий день на один сканер. Узким местом на пути получения готовой базы данных считается этап коррекции данных, поскольку зависит от ручного труда: для обеспечения минимального количества ошибок операторы вручную обрабатывают информацию, помеченную на этапе проверки, что требует, кроме непосредственных затрат времени, достаточно длительного обучения сотрудников.

Remove ads
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads