¿Automatizar el guardado diario de webarchive?

3

¿Es posible automatizar el guardado de una página web (usando el formato .webarchive ) usando Automator (en un proceso en segundo plano) o usando Terminal?

    
pregunta JFW 07.01.2014 - 11:02

2 respuestas

2

Descargando & guardando como webarchivo

Una herramienta de línea de comandos llamada webarchiver descargará las URL y las guardará en el formato .webarchive . Puede instalar esta herramienta a través de MacPorts (por desgracia, no homebrew!) O compilarla con XCode. Soy un dummy XCode, pero he tenido éxito con las instrucciones encontradas aquí .

Cómo operar:

webarchiver 0.5
Usage: webarchiver -url URL -output FILE 
Example: webarchiver -url http://www.google.com -output google.webarchive
-url    http:// or path to local file
-output File to write webarchive to

Nombres de archivos agradables

Esta extensa línea para terminal te permite configurar la URL deseada y descargará un archivo de archivo web con el prefijo YYYY-MM-DD:

URL="www.nytimes.com"; ./webarchiver -url "http://$URL" -output "/Users/<your username>/Desktop/$(date +"%Y-%m-%d-$URL.webarchive")"

Esto guardará un archivo web en su escritorio:

2014-02-10-www.nytimes.com.webarchive

Si no estás seguro de qué es <your username> , ingresa whoami en Terminal.app (y presiona Intro, por supuesto).

Cron

Preferiría usar launchd , ya que " se desaconseja el uso de cron en OS X ". Hay un bonito editor de launchd llamado Lingon . ¡Diviértete!

    
respondido por el myhd 10.02.2014 - 18:50
2

Sí es la respuesta simple con cualquiera de los dos.

Estoy en mi iPad a la mañana. Pero puede usar el comando de unix curl para descargar el página web para y canalizarlo al comando de unix textutil que puede enviarlo a un archivo webarchivo.

Si tengo la oportunidad, publicaré un ejemplo.

Aquí hay un pequeño ejemplo (rápido) de lo que estaba pensando. Escrito en Applescript ejecutando comandos de shell shell.

  property agent : "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3"

property outPutFormat : "rtf"
property saveDIR : "/Users/USERNAME/Desktop/"
property fileName : "test2"

set theData to do shell script "curl " & " -A" & space & quoted form of agent & space & "http://weather.yahoo.com/france/auvergne/france-29332634/" as string


do shell script "echo " & quoted form of theData & "|textutil -format html -convert" & space & outPutFormat & space & "-stdin -output " & space & saveDIR & fileName & "." & outPutFormat

Aunque esto funciona. No estoy muy contento con los resultados. Esto se debe a que Curl y Textutil solo procesan el código html pero no los recursos.

Así que estoy trabajando en otra cosa que salvará un WebArchive de una manera mucho mejor. 90% allí, pero me llevará un poco más de tiempo escribir

    
respondido por el markhunte 07.01.2014 - 14:02

Lea otras preguntas en las etiquetas