Derramó un enorme PDF en archivos .txt separados

0

Tengo un archivo PDF de 2 años de entradas de diario que se exportaron desde MacJournal en 2009. Ahora uso Day One, que permite a CLI importar archivos .txt.

Mi pregunta es, ¿es posible exportar un PDF de entradas con formato (con fecha) a archivos .txt individuales de cada entrada separados (con el nombre de archivo month / Day / Year.txt)?

    
pregunta user72934 13.03.2014 - 17:31

1 respuesta

1

Intenta usar primero pdftotext o ebook-convert para convertir el PDF a texto:

brew install poppler;pdftotext file.pdf

/Applications/calibre.app/Contents/MacOS/ebook-convert file.pdf file.txt

Luego, si, por ejemplo, el archivo de texto tiene un formato como este:

2012-12-31
paragraph 1
paragraph 2

2013-01-01
paragraph 1
paragraph 2

Intenta ejecutar un comando como este:

awk -v RS= -F'\n' '{print $0>($1".txt")}' file.txt

O si el archivo de texto tiene un formato como este:

2012-12-31

paragraph 1

paragraph 2


2013-01-01

paragraph 1

paragraph 2

Intenta ejecutar un comando como este:

ruby -e '$<.read.split("\n\n\n").each{|s|title,content=s.split("\n\n",2)
File.open(title+".txt","w"){|f|f.puts content}}' input.txt
    
respondido por el user495470 16.03.2014 - 15:44

Lea otras preguntas en las etiquetas