¿Es posible automatizar el guardado de una página web (usando el formato .webarchive
) usando Automator (en un proceso en segundo plano) o usando Terminal?
¿Es posible automatizar el guardado de una página web (usando el formato .webarchive
) usando Automator (en un proceso en segundo plano) o usando Terminal?
Una herramienta de línea de comandos llamada webarchiver descargará las URL y las guardará en el formato .webarchive
. Puede instalar esta herramienta a través de MacPorts (por desgracia, no homebrew!) O compilarla con XCode. Soy un dummy XCode, pero he tenido éxito con las instrucciones encontradas aquí .
Cómo operar:
webarchiver 0.5
Usage: webarchiver -url URL -output FILE
Example: webarchiver -url http://www.google.com -output google.webarchive
-url http:// or path to local file
-output File to write webarchive to
Esta extensa línea para terminal te permite configurar la URL deseada y descargará un archivo de archivo web con el prefijo YYYY-MM-DD:
URL="www.nytimes.com"; ./webarchiver -url "http://$URL" -output "/Users/<your username>/Desktop/$(date +"%Y-%m-%d-$URL.webarchive")"
Esto guardará un archivo web en su escritorio:
2014-02-10-www.nytimes.com.webarchive
Si no estás seguro de qué es <your username>
, ingresa whoami
en Terminal.app (y presiona Intro, por supuesto).
Preferiría usar launchd
, ya que " se desaconseja el uso de cron en OS X ". Hay un bonito editor de launchd llamado Lingon . ¡Diviértete!
Sí es la respuesta simple con cualquiera de los dos.
Estoy en mi iPad a la mañana. Pero puede usar el comando de unix curl para descargar el página web para y canalizarlo al comando de unix textutil que puede enviarlo a un archivo webarchivo.
Si tengo la oportunidad, publicaré un ejemplo.
Aquí hay un pequeño ejemplo (rápido) de lo que estaba pensando. Escrito en Applescript ejecutando comandos de shell shell.
property agent : "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3"
property outPutFormat : "rtf"
property saveDIR : "/Users/USERNAME/Desktop/"
property fileName : "test2"
set theData to do shell script "curl " & " -A" & space & quoted form of agent & space & "http://weather.yahoo.com/france/auvergne/france-29332634/" as string
do shell script "echo " & quoted form of theData & "|textutil -format html -convert" & space & outPutFormat & space & "-stdin -output " & space & saveDIR & fileName & "." & outPutFormat
Aunque esto funciona. No estoy muy contento con los resultados. Esto se debe a que Curl y Textutil solo procesan el código html pero no los recursos.
Así que estoy trabajando en otra cosa que salvará un WebArchive de una manera mucho mejor. 90% allí, pero me llevará un poco más de tiempo escribir
Lea otras preguntas en las etiquetas mavericks web-browsing automation archive