Analice un montón de archivos y categorícelos de acuerdo con su contenido, es posible duplicar el contenido con un formato diferente

0

Tengo material como imágenes, archivos PDF, DOC y DOCX con muchos elementos duplicados pero en diferentes formatos. Puedo tener un documento en PDF y luego lo tengo también en DOC y DOCX. Quiero categorizar de alguna manera todo el material de acuerdo con el contenido del material. Si PDF y DOC tienen el mismo contenido, se deben clasificar en la misma carpeta. Mi primera idea fue ssdeep y Adope PDF en la búsqueda de archivos PDF pero soluciones lentas.

  
  • ¿Existe algún método que categorice un directorio masivo con duplicados de acuerdo con su contenido?

  •   
  • Tenga en cuenta que la duplicidad es una medida estadística de una manera: si hay suficiente similitud, categorice en la misma carpeta. Como puede   ¿Hago este tipo de categorización en Mac?

  •   
  • ¿Algún software listo para esto?

  •   

Por favor, agregue etiquetas como categorization para que coincida mejor con este hilo. ¿Algunas mejores etiquetas?

    
pregunta hhh 26.09.2012 - 07:14

0 respuestas

Lea otras preguntas en las etiquetas