Tengo material como imágenes, archivos PDF, DOC y DOCX con muchos elementos duplicados pero en diferentes formatos. Puedo tener un documento en PDF y luego lo tengo también en DOC y DOCX. Quiero categorizar de alguna manera todo el material de acuerdo con el contenido del material. Si PDF y DOC tienen el mismo contenido, se deben clasificar en la misma carpeta. Mi primera idea fue ssdeep y Adope PDF en la búsqueda de archivos PDF pero soluciones lentas.
¿Existe algún método que categorice un directorio masivo con duplicados de acuerdo con su contenido?
Tenga en cuenta que la duplicidad es una medida estadística de una manera: si hay suficiente similitud, categorice en la misma carpeta. Como puede ¿Hago este tipo de categorización en Mac?
¿Algún software listo para esto?
Por favor, agregue etiquetas como categorization
para que coincida mejor con este hilo. ¿Algunas mejores etiquetas?