Que es Reconocimiento óptico de carácteres (OCR)
Digamos que Usted quiere digitalizar un artículo de una revista como un contrato imprimido. Usted puede pasar horas reescribiendo y después corrigiendo los errores. O puede convertir todos materiales requeridos en formato digital en pocos minutos usando un escáner (o cámara digital) y un software de Reconocimiento Óptico de Caracteres.
¿Que exactamente significa OCR?
Reconocimiento Óptico de Caracteres, o OCR, es una tecnología que le permite convertir diferentes tipos de documentos, tales como documentos en papel escaneados, PDF archivos o imágenes captadas por una cámara digital en datos con opción de búsqueda y funcionalidad de editar.
Imagina que Ud. tiene documento en papel – por ejemplo, un artículo de revista, un folleto, o un contrato en PDF cual su socio le envió a Ud. por email. Obviamente, un escáner no será suficiente para hacer así que Ud. pueda editar esa información, digamos, en Microsoft Word. Todo lo que puede hacer un escáner es crear una imagen o una instantánea de documento que es nada más que una colección de puntos negros y blancos o color, conocida como imagen de trama. Con fines de extraer y reusar los datos de los documentos escaneados, imágenes de cámara o de PDFs, necesita un software de OCR que va a separar las letras de la imagen, ponerlas en palabras y después las palabras en frases, lo que le permite tener acceso y editar el contenido de documento original.
¿Qué hay detrás de la tecnología OCR?
Los mecanismos exactos que le permitan a la gente reconocer los objetos aun no pueden ser entendidos, pero hay 3 principios básicos que los científicos conocen muy bien – integridad, intencionalidad, adaptabilidad (IPA*). Estos principios construyen la base de ABBYY FineReader OCR y PDF Transformer que le permitan a ella reproducir el reconocimiento natural o como el ser humano.
Vamos a ver como FineReader OCR reconoce el texto. Primero, el programa de OCR analiza la estructura de la imagen del documento. El divide la página en elementos tales como bloques de texto, tablas, imágenes y etc. Las líneas están dividas en palabras y después – en caracteres. Como los caracteres han sido señalados, el programa les compara con un conjunto de imágenes del patrón. El avanza los numerosos hipótesis sobre que es este carácter. En base de estas hipótesis el programa analiza diferentes variantes de ruptura de líneas en palabras y palabras en caracteres. Después de procesar un enorme número de tales hipótesis probabilísticas, el programa finalmente toma la decisión, presentando a Ud. el texto reconocido.
¿Cómo usar el OCR Software?
Usar ABBYY FineReader OCR es fácil: el proceso generalmente consiste de 3 etapas: Abrir (Scan) el documento, Reconocerlo y después Guardar en un formato conveniente (DOC, RTF, XLS, PDF, HTML, TXT etc.) o exportar los datos directamente a una de las aplicaciones de Office tales como Microsoft Word, Excel o Adobe Acrobat.
Además, la ultima versión de ABBYY FineReader soporta el modo de Tareas Automáticas que es esencial cuando Ud. hace tareas de rutina regularmente. Con esta función, las areas de reconocimiento lanzan automáticamente sin tener que ejecutar manualmente todos los pasos mencionados anteriormente.
Todo el proceso de conversión de los datos de documento en papel original, imagen o PDF le lleva menos de un minuto, y después el documento reconocido finalmente se ve igual que el original!
¿Algo que Comentar?