Aspirer site

De cyberesprit.fr
Aller à : navigation, rechercher

Aspirer un site web avec la commande Wget

Voila la commande magique qui fait ***** tous les admins hébergeur web :

wget -r -k -np --user-agent=Firefox url-du-site

Explication :

L'option -r signifie que le téléchargement sera récursif, télécharge des liens de la page.

Le -k permet de reconstituer le site localement, les liens sont modifié pour pointer localement.

Le -np empêche de remonter dans le répertoire parent.

Et --user-agent= pour faire passer Wget pour un Firefox. (c'est très mal !)

vous avez aussi pour les sites qui demandent une authentification :

--http-user --http-password

Il paraîtrait même qu'un autre utilitaire serait faire encore mieux le mal lui aussi : httrack

Source: http://www.system-linux.eu/index.php?post/2009/05/26/Aspirer-un-site-web-avec-la-commande-Wget

Pour outrepasser le fichier robot.txt, ajouter les options suivantes :

-e robots=off wait 1