DEV Community

OCR con Tesseract en Windows

Tesseract es open source y es uno de los OCR que funcionan con mas exactitud.

Simplemente posteare aqui peque;os retacitos de codigo para facilitar retomar el hilo.

Una tarea basica, es escanear muchos imagenes y pasarlas a un archivo pdf o de texto, asi es como lo logre

  1. Instalamos tesseract del binario de windows: https://github.com/UB-Mannheim/tesseract/wiki
  2. agregar en path la ruta al binario ejecutable de tessaract
  3. poner en un subdirectorio todas las imagenes
  4. con CMD clasico, obtener un listado de todas las imagenes para hacer el OCR, use este comando

dir /b >imagenes.txt

el archivo imagenes queda por dentro por ejemplo asi:

01.jpeg
02.jpeg
03.jpeg
04.jpeg
05.jpeg
...

  1. En powershell la entrada sera el archivo que tiene el nombre de cada imagen a la que se le hara el OCR y de salida se usa un solo archivo de texto en donde se pondran todo el texto resultado del proceso de OCR, les comparto el ejemplo uso la siguiente linea que corre en Powershell:

tesseract C:\Users\usuario\Downloads\ocr\imagenes.txt salida --psm 3

Este comando creara el archivo "salida.txt" que agregara la salida en texto plano de todas las imagenes listadas en el archivo "imagenes.txt"

Fuentes:

La ayuda de tesseract:
https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

https://github.com/tesseract-ocr/tesseract/releases/

Para hacer la lista de nombres de archivos de imagenes:

https://superuser.com/questions/395836/how-to-copy-a-list-of-file-names-to-text-file

https://superuser.com/questions/870905/windows-command-line-dir-command-to-display-only-the-file-name-in-8-3-format

https://github.com/tesseract-ocr/tessdoc
https://github.com/UB-Mannheim/tesseract/wiki/Install-additional-language-and-script-models

De aqui supe de la existencia de tesseract:
https://www.reddit.com/r/DataHoarder/

OCR en linea mas o menos bueno:

Casi bueno, pero me manda paginas en blanco, quiza solo sea en la version gratuita y ya en la version de paga mande todo, pero nunca he probado la version de paga
https://www.onlineocr.net/pdf-to-word

Top comments (0)