Estoy buscando una herramienta de secuencias de comandos sin conexión que permita la búsqueda de un archivo PDF existente ejecutando OCR en él, reemplazando el archivo original que no se puede buscar con la versión de búsqueda, y que pueda ejecutarse sin supervisión.
Por ejemplo, www.pdfscannerapp.com: hace exactamente lo que necesito, pero solo es GUI, no programable.
Soy consciente de que Evernote hace que los archivos PDF puedan buscarse, pero solo se pueden buscar dentro de Evernote.
No estoy buscando un OCR perfecto, incluso un OCR moderadamente aceptable está bien, pero preferiría una pequeña utilidad en lugar de un paquete de software voluminoso.
(Soy consciente de una pregunta similar, pero diferente en AD: Buscando software para escanear o convertir a PDF con capacidad de búsqueda y firma . Sin embargo, no necesito firmar ni completar archivos PDF, y mi requisito es que la solución sea compatible con scripts. )
EDITAR:
1) Varias utilidades permiten la extracción de texto estructurado, sin embargo, para poder extraerlo, el texto debe estar allí; Me refiero principalmente a los archivos PDF que están ajustados a los mapas de bits, como es el caso de los archivos PDF simples generados por los escáneres.
2) No necesariamente estoy buscando una solución gratuita, y estaría más que feliz de pagar por una buena utilidad que solo hace lo que necesito, pero no estoy buscando aplicaciones voluminosas con un millón de funciones que incluyen una Función de OCR pero cuyo costo no justifica comprarlos solo por la funcionalidad de OCR.
3) Como se indicó anteriormente, no estoy buscando un OCR perfecto, solo un OCR moderadamente aceptable. Desafortunadamente, en mi experiencia, el tesseract está realmente por debajo de ese umbral. Defino "moderadamente aceptable" una OCR que puede, digamos, OCR una factura de servicios públicos para que al menos el número de cuenta (número de cliente) se reconozca correctamente.
EDITAR: "programable en secuencias de comandos" o "automatizable", es decir, puede activarse automáticamente y ejecutarse de forma desatendida sin ninguna intervención humana.