Explicación introductoria
Un umlaut es una vocal alemana, representada por escrito como una letra con dos puntos ( diéresis ) sobre la vocal básica. Los ejemplos de umlauts son ä, ö y ü.
Estas tres letras se pueden representar en el texto como un solo carácter, por ejemplo, ü como Unicode U + 00FC, o como dos caracteres: la vocal básica (por ejemplo, u, U + 0075) y la diéresis de combinación (¨, U + 0308).
Tanto el carácter único umlaut como el carácter umlaut tienen el mismo aspecto en un documento PDF, pero su código subyacente es diferente. Esta animación muestra el texto copiado desde el mismo (!) archivo PDF abierto en Firefox (arriba) y Vista previa (abajo) en un editor de texto plano (BBEdit) y luego borra letras individuales:
Cuandoumlautserepresentacomouncarácter,ybuscaunapalabraalemanaconunumlaut,porejemplo,Tür"puerta", en un texto, encontrarás esa palabra si está allí. Si, por otro lado, umlaut se representa con dos caracteres y busca Tür , no lo encontrará:
Die Tür ist offen. <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text
Pregunta
En Apple Preview y Safari, pero también en la última versión de Adobe Acrobat Reader DC (18.011.20058), umlauts en documentos PDF se representan como dos caracteres (vocal más diéresis), mientras que en el mismo documento PDF , cuando lo abro en Firefox, Chrome o una versión anterior de Adobe Acrobat X Pro (10.1.16), se representan como un solo carácter.
¿Por qué es así y cómo puedo evitar las diéresis de dos caracteres cuando creo documentos PDF?