¿Alguien ha experimentado un fenómeno en el que la "AI" de la Vista previa para la extracción de texto en PDF a veces elimina espacios de una o dos líneas de texto?
Estoy trabajando con algunos documentos universitarios y necesito extraer fragmentos de textos para varios propósitos. En algunas instancias (afortunadamente raras pero aún enormemente molestas), la Vista previa copiará una sección del texto y saldrá algo así como
"ThistextispartofaPDFdocumentthathasbeenaccessedusingPreviewonMacOSX.Ifyou try to copy the text sometimes things don't work right."
Este efecto parece ocurrir con mayor frecuencia en la primera línea de un párrafo, sección, etc., y particularmente en las líneas que forman parte de las listas con viñetas o en la primera línea de un capítulo / sección completa donde puede haber algún estilo de texto. utilizar. Ejemplo:
"INTHISCHAPTERWEwillbetalkingaboutthePreviewapplicationforMacOS X. This application lets you..."
Cuando intento seleccionar manualmente el carácter de texto por carácter, puedo ver el efecto en el trabajo. El indicador de selección cubrirá la letra final de una palabra y el espacio que la sigue al mismo tiempo.
Esto se ha producido principalmente en los documentos académicos proporcionados por la universidad, así que desafortunadamente no puedo compartir un ejemplo (copyright) y aún no he encontrado un documento en línea que muestre el problema. Sin embargo, estoy seguro de que esto es específico de la Vista previa, porque el mismo documento en Adobe Acrobat y SumatraPDF en Windows funciona bien, es decir, los espacios no se eliminan de ninguna línea. (Sin embargo, Acrobat en Windows agrega saltos de línea duros al final de cada línea física de texto, por lo que la ardua tarea se convierte en la eliminación de los saltos de línea en exceso, casi tan malo como agregar los espacios nuevamente).
Estoy seguro de que esto está relacionado de alguna manera con la "IA" que Apple agregó a Vista previa para ayudarlo a lidiar con columnas y otras anomalías extrañas de PDF. Sin embargo, ninguna solución que haya encontrado es lo suficientemente libre de problemas como para no ser tan molesta.
¿Alguien más ha visto este comportamiento?
Gracias