Extraer texto de Imágenes y PDFs en Gnu/Linux
|
Tengo un proyecto de hacer una Portal de contenidos basado en una enciclopedia, que para empezar necesitaba escanear unos documentos y pasarlo de imagen a texto, en Windows tienen un programa especializado pero en Gnu/Linux tenemos una buena opción que es Tesseract, pero este es un programa Cli, es decir de comandos, yo necesitaba un programa Gui, es decir con interfaces gráfica y no fui que encontré este articulo en itsfoss: Use gImageReader to Extract Text From Images and PDFs on Linux. Pero tiene una falencia en cuanto a los pasos a seguir.
Instalar Tesseract
OCR es el acronimo de (Optical Character Recognition) reconocimiento óptico de caracteres.
Tesseract es un motor OCR de código abierto, inicialmente desarrollado por HP y liberado en código abierto en 2006.
Para instalar en primer lugar viene sin lenguajes extras instalados con unos comandos extras puede agregar en nuestro caso el español, tienes que buscar cual es el comando para ingresar tu lenguaje en caso no sea el español lo que estés necesitando
el código:
sudo apt update
sudo apt install tesseract-ocr -y
sudo apt install tesseract-ocr-spa -y
tesseract --list-langs
gImageReader la interface de Tesseract
Para instalar gImageReader tienes que instalar el ppa con los comandos, una vez agregado tendrás la opción de instalar gImageReader la interfaces gráfica para usar Tesseract, cabe decir si utilizas un escritorio basado en Gnome hay que instalar un paquete que usa gtk el cual es gimagereader-gtk , que te crea el icono en el escritorio e instala el programa en el menú, si usas Kde Plasma entonces debes bajar el otro programa que es gimagereader-qt , que te instala el programa en el menú . Listo ya puedes escanear y pasar a texto lo que gustes.
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
sudo apt install gimagereader-gtk