Cómo Instalar y Usar wget en Mac para Descargar Sites Completos

2 de julio de 2023
Cómo Instalar y Usar wget en Mac para Descargar Sitios Web Completos
En el mundo de la tecnología y la administración de sitios web, wget es una herramienta fundamental para realizar descargas automatizadas y recursivas de sitios web. En este tutorial, te enseñaremos cómo instalar wget en tu Mac y cómo usarlo para descargar un sitio web completo. También exploraremos los comandos más comunes y útiles que ofrece wget.
Instalación de wget en Mac
Para instalar wget en tu Mac, utilizaremos Homebrew, un gestor de paquetes muy popular entre los usuarios de macOS. Sigue estos pasos:
-
Instalar Homebrew: Si aún no tienes Homebrew instalado, abre la Terminal y ejecuta el siguiente comando:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" -
Instalar wget: Una vez que Homebrew esté instalado, instala wget ejecutando este comando en la Terminal:
brew install wget
Uso de wget para Descargar un Sitio Web Completo
Una vez que wget esté instalado, puedes utilizarlo para descargar un sitio web completo con el siguiente comando:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://ejemplo.com
Este comando descargará automáticamente todos los recursos necesarios de http://ejemplo.com. Vamos a desglosar las opciones usadas:
--mirror: Activa la descarga recursiva y mantiene una estructura local del sitio.--convert-links: Convierte los enlaces para que funcionen localmente.--adjust-extension: Ajusta las extensiones de los archivos a.htmlcuando sea necesario.--page-requisites: Descarga todos los archivos necesarios para que las páginas HTML se muestren correctamente, incluidos imágenes, CSS, etc.--no-parent: Evita quewgetascienda al directorio padre, limitando la descarga al sitio especificado.
Algunas variaciones
Para hacer que NO se descarguen las que contienen la palabra "hoteles" en la url
puedes usar la opción --reject-regex para que wget no descargue URLs que contengan la palabra "hoteles". El comando completo sería:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --continue --reject-regex "hoteles" http://ejemplo.com
SI quisieras hacer que no descargue los que tengan la palabra "hoteles" ni los que tengan la palabra "hotels" , puedes usar una expresión regular que contemple ambas palabras. Aquí tienes cómo puedes hacerlo:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --continue --reject-regex "hoteles|hotels|hotel" http://ejemplo.com
Si quieres asegurarte de que wget solamente descargue las URLs que contienen "hoteles" o "hotels", puedes utilizar la opción --accept-regex. Aquí tienes un ejemplo de cómo hacerlo:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --continue --accept-regex "hoteles|hotels" http://ejemplo.com
Comandos Principales y Más Usados de wget
A continuación, se presentan algunos de los comandos más comunes y útiles de wget:
-
Descargar un archivo:
wget http://ejemplo.com/archivo.zip -
Descarga recursiva:
wget -r http://ejemplo.com-ro--recursive: Activa la descarga recursiva.
-
Limitar la profundidad de la descarga:
wget -r -l 5 http://ejemplo.com-lo--level: Limita la profundidad de la descarga recursiva a 5 niveles.
-
Descargar en segundo plano:
wget -b http://ejemplo.com/archivo.zip-bo--background: Ejecutawgeten segundo plano.
-
Reanudar una descarga interrumpida:
wget -c http://ejemplo.com/archivo.zip-co--continue: Reanuda la descarga de un archivo interrumpido.
-
Limitar la velocidad de descarga:
wget --limit-rate=100k http://ejemplo.com/archivo.zip--limit-rate: Limita la velocidad de descarga. En este ejemplo, se limita a 100 KB/s.
Conclusión
wget es una herramienta poderosa y versátil que te permite descargar sitios web completos y archivos con facilidad. Con los comandos y opciones correctas, puedes automatizar numerosas tareas de gestión web y descargas. Ahora que sabes cómo instalar y usar wget en tu Mac, podrás expandir tu caja de herramientas tecnológicas y mejorar tu flujo de trabajo.