Определение OCR

OCR - это аббревиатура « Оптическое распознавание символов», выражение на английском языке, которое можно перевести как « Оптическое распознавание символов» . Это понятие используется в информатике для обозначения процедуры, позволяющей оцифровывать текст через сканер .

Случай OCR очень специфичен, так как он дает компьютеру базовый для большинства людей навык: чтение. Стоит отметить, что это не простая задача для любого из нас, хотя в нашем случае мы обычно учимся делать это с самого раннего возраста, поэтому мы приобретаем отличные навыки, даже когда нам приходится сталкиваться с трудностями для понимания каллиграфии.

Несмотря на развитие технологий, OCR по- прежнему сталкивается с рядом проблем. Например, получить цифровую систему для распознавания рукописного текста довольно сложно. Процесс обычно сталкивается с неудобствами, чтобы сегментировать различные текстовые единицы. То же самое происходит, когда слова появляются очень близко друг к другу.

Другие ошибки распознавания могут появиться, если между словами и фоном недостаточно контраста. Предположим, что текст, написанный черными буквами, напечатан на сером листе: вполне вероятно, что процесс OCR не сможет различить буквы и слова .

Давайте не будем забывать, что, поскольку действие, которое, очевидно, так же просто, как и ходьба по улице, требует ряда дополнительных действий, чтобы избежать препятствий и защитить нашу целостность, чтение печатного текста является результатом нескольких одновременных разведывательных задач, которые мы выполняем почти бессознательно, но они берут нас на работу.

Когда мы сталкиваемся с текстом, наша собственная система распознавания текста отвечает за поиск и распознавание заголовка, идентификацию абзацев, знаков препинания, пробелов между словами и сокращениями, среди других элементов, а также за стремление понять источники слишком богато или неопрятно, чтобы заполнить информацию в регионах, где произошел износ любого типа, например, чернильное пятно или пропавший лист бумаги.

Рекомендуем