domingo, 26 de octubre de 2008

OCR Reconocimiento Óptico de Caracteres

Editado:

Atención: OCRopus ya está en los repositorios.

Instala con Synaptic, con apt-get o desde el Centro de Software.
=============================================
A la espera de OCRopus, usaremos tesseract-ocr y gscan2pdf. (Ambos en los repositorios)
==================================
Escanear con xsane el texto y guardar en formato .tif
Escala de grises (trazos) y resolución de 200 o más.
La imagen se puede limpiar con gimp.
Si el texto a escanear tiene varias partes, columnas, etc., seleccionar por partes y utilizar el escaneo por lotes:
Menú Ventana ---> Mostrar escaneo por lotes
===============================
Instalar tesseract
sudo aptitude install tesseract-ocr tesseract-ocr-spa
Orden para pasar a texto:
tesseract archivo.tif nombre-archivo-de-salida -l spa
====================
Instalar gscan2pdf
sudo aptitude install gscan2pdf
Archivo / Escanear
En la pestaña Page Options ---> Marcar OCR scanned pages ---> Tesseract
Botón "Escanear"
Herramientas / OCR
====
Con gscan2pdf también podemos extraer de una a todas las imágenes de un pdf:
Archivo / Importar / Ruta del archivo .pdf
Una vez que lo ha importado nos ofrecerá todas las imágenes de dicho archivo.
Seleccionamos las que queremos y... Archivo / Guardar imagen.
==================
Si lo que queremos extraer del pdf es el texto, lo podemos hacer con pdfedit.

No hay comentarios: