¿Qué programa debo usar para transferir datos de 20TB a través de la red?

11

Necesito copiar 20TB de datos en una matriz de rayos. La casilla donde existen los datos no tiene una conexión de rayo, por lo que necesitaré utilizar la red local de 1GB para esto. (Sí, tomará para siempre).

Intenté usar Filezilla / sftp, pero se bloqueó cuando la cola se hizo muy grande. ¿Es rsync o scp el camino a seguir?

    
pregunta lacinda 03.10.2014 - 18:54

5 respuestas

17

rsync es una buena manera de hacerlo (scp es casi lo mismo con menos funciones). Es posible que desee utilizar la opción -Z , que habilitará la compresión zlib. Dependiendo de qué tan rápido sean sus unidades / computadora, puede ser más rápido que enviar sin comprimir, es decir, si su enlace de red está saturado. También puede desear la opción de modo de archivo, -a , que conservará los enlaces simbólicos, los permisos y los tiempos de creación / modificación, así como también la copia recursiva de directorios. Dependiendo de lo que esté copiando, es posible que desee -E que conserva los atributos extendidos y las bifurcaciones de recursos de mac. Finalmente, --progress le mostrará información sobre el progreso.

    
respondido por el Michael D. M. Dryden 03.10.2014 - 20:03
6

Aunque no es tan ubicuo como rsync, en el pasado usé una herramienta llamada "mpscp" - enlace

De Sandia National Labs, es una herramienta de copia de archivos que se ejecuta sobre SSH que está especialmente optimizada para saturar las redes de alta velocidad entre sistemas cercanos (como copiar terabytes de datos entre dos supercomputadores en el mismo sitio, conectados a través de 10 Gb + o Infiniband ). Funciona bien, pero puede ser un poco difícil de configurar. En las pruebas, fácilmente he visto que se ejecuta 2x-3x más rápido que rsync.

    
respondido por el Yeraze 04.10.2014 - 04:07
3

Use rsync y considere usarlo con rsyncd. Si usas rsync sin rsyncd, estás atascado usando ssh, lo que significa usar algún tipo de cifrado. Probablemente esté copiando los datos de una máquina más antigua a una máquina más nueva y es posible que la máquina más antigua no tenga el gruñido de la CPU para cifrar los datos para su transmisión lo suficientemente rápido como para mantener saturado un enlace Gigabit Ethernet. Pruebe a transferir lotes de archivos usando ambos métodos y vea de qué manera es más rápido.

Por el mismo motivo, recomendaría probar el uso de la opción de compresión de rsync antes de comprometerme a usarlo. La compresión es otra actividad intensiva de la CPU que podría no ser capaz de mantenerse al día con las velocidades de Gigabit Ethernet cuando se intenta en un hardware más antiguo. rsync es un programa de quince años, escrito cuando la mayoría de las personas incluso en países del primer mundo accedían a Internet a través de un módem de acceso telefónico. El ancho de banda de la red frente a las compensaciones de la CPU eran muy diferentes entonces.

    
respondido por el Kyle Jones 04.10.2014 - 02:00
3

¿Está este 20Tb empaquetado en una pequeña cantidad de archivos grandes (como video, base de datos de monstruos) o millones de archivos más pequeños?

Si fuera un montón de archivos pequeños, iría con rsync para la capacidad de reinicio o una secuencia de flujo de datos para una mayor eficiencia (una conexión de red para el lote, comenzar de nuevo desde el principio si falla)

tar -cf - * | ( cd newhome; tar -xf - )

la carpeta remota debe estar montada.

¿Podría adjuntar directamente la nueva matriz con una interfaz diferente? Rsync local no usa ssh, por lo que elimina ese punto de falla. Sí, Firewire 800 es más lento que Gigabit Ethernet, pero no puede cargar Ethernet al 100%, podría ser más rápido con FireWire. Para su información, también puede conectarse a la red FireWire si las cajas están lo suficientemente cerca. Agregue la interfaz en las preferencias del sistema - > red.

    
respondido por el paul 04.10.2014 - 03:06
0

Otra opción sería probar Bittorrent Sync ( enlace ). Lo he usado para sincronizar fotos familiares y videos entre miembros de nuestra familia a través de la WAN, pero no hay razón para que no funcione en la red local. Utiliza conexiones de igual a igual, por lo que los datos no estarían pasando por un servidor como si lo hiciera si intentara usar algo como Dropbox (no creo que tenga 20 TB de espacio de Dropbox o quiera esperar tanto tiempo para subir tanto) datos!)

También es compatible con múltiples plataformas, por lo que tiene más flexibilidad que rsync y tar.

    
respondido por el KenB 07.10.2014 - 16:03

Lea otras preguntas en las etiquetas