Aspirateur de site web : figer un site suspect pour l’analyser sans risque en cybersécurité

Cybermenaces

26 juin 2026

Aspirateur de site web : figer un site suspect pour l’analyser sans risque en cybersécurité

Un aspirateur de site web, c’est un programme qui parcourt un site de page en page, récupère tout ce qu’il trouve (HTML, images, CSS, parfois des scripts) et reconstruit une copie locale que tu peux ouvrir dans ton navigateur sans aucune connexion. Tu cliques sur les liens, tu navigues, et tout fonctionne comme si tu étais encore en ligne. Sauf que rien ne part vers le serveur distant et que personne ne peut te tracer.

Dans le quotidien d’un analyste en threat intelligence, ce genre d’outil sert plus souvent qu’on ne le pense. Tu tombes sur un domaine qui héberge un kit de phishing tout frais, un panneau de commande C2 qui ressemble à un vieux site d’admin, ou une landing page compromise qui pousse du malware. Au lieu de cliquer et de risquer une infection ou de signaler ta présence à l’attaquant, tu lances l’aspiration, tu récupères le tout dans une machine isolée et tu dissèques la copie à tête reposée. C’est plus propre, plus traçable, et ça te laisse une version figée au cas où le site change ou disparaît le lendemain.

Le fonctionnement reste assez direct. L’outil prend l’URL de départ, télécharge la première page, extrait tous les liens internes, continue en profondeur, et à la fin il réécrit les chemins pour que tout pointe vers les fichiers qui sont maintenant sur ton disque. Résultat : tu ouvres le fichier index.html local et tu te balades dans le site comme avant, mais en offline complet.

Les outils qui tiennent encore la route en 2026

HTTrack reste la référence historique. Gratuit, open source sous licence GPL, disponible en version Windows (WinHTTrack) et Linux/Unix (WebHTTrack). Il fait du téléchargement récursif propre, gère les redirections, les cookies basiques, et te permet de reprendre un job interrompu. L’interface date un peu, c’est vrai, mais elle est ultra-configurable : profondeur maximale, types de fichiers à ignorer, user-agent personnalisé, exclusion de répertoires entiers. Sur des sites statiques ou peu dynamiques, il donne encore d’excellents résultats. Sur les sites modernes bourrés de JavaScript et protégés par des solutions anti-bot, il commence à montrer ses limites, comme beaucoup d’autres outils du même genre.

Cyotek WebCopy propose une approche un peu plus agréable au quotidien, surtout sous Windows. L’interface est plus claire, la configuration des règles de filtrage plus intuitive, et il gère bien la réécriture des liens pour la navigation hors ligne. Il reste gratuit et fait un travail solide sur les sites qui ne sont pas trop tarabiscotés. Beaucoup d’analystes qui trouvaient HTTrack un peu daté sont passés par là pour les usages réguliers.

Pour ceux qui préfèrent la ligne de commande, wget avec les options de miroir reste un grand classique. Léger, scriptable, capable de gérer redirections et authentification basique. Il demande plus de pratique, mais il s’intègre facilement dans des workflows automatisés.

D’autres solutions existent (extensions Chrome, outils en ligne, ou logiciels payants comme A1 Website Download), mais pour un usage sérieux en cybersécurité, on reste généralement sur les options open source ou gratuites qu’on peut auditer et exécuter dans un environnement contrôlé.

Comment aspirer un site web sans se faire piéger

Le vrai sujet, quand on parle de sites suspects, ce n’est pas tant l’outil que la manière dont on l’utilise. La première règle absolue : tout se passe dans une machine virtuelle dédiée, avec snapshot propre avant chaque opération. Tu n’installes jamais ces outils sur ta station de travail habituelle.

Une fois la VM lancée, tu configures l’aspirateur avec un peu de bon sens. Tu limites la profondeur de crawl au début (souvent 2 ou 3 niveaux suffisent pour comprendre la structure d’un kit de phishing). Tu exclus les gros fichiers multimédias ou les extensions exécutables si tu n’en as pas besoin pour l’analyse. Tu mets un user-agent crédible et tu ajoutes un petit délai entre les requêtes pour ne pas surcharger inutilement le serveur cible (même si, pour un site malveillant, la politesse n’est pas toujours la priorité).

Quand le téléchargement est terminé, tu coupes le réseau de la VM si possible. Tu ouvres les fichiers HTML dans un éditeur de texte ou un navigateur configuré en mode très restrictif (scripts désactivés, pas d’extensions). Tu cherches les patterns habituels : code obfuscated, appels à des domaines inconnus, formulaires qui envoient vers des endpoints chelous, chaînes base64 suspectes. Tu peux aussi passer le dossier au crible avec des outils d’analyse statique ou des règles YARA avant d’ouvrir quoi que ce soit dans un vrai navigateur.

Le risque zéro n’existe évidemment pas. Certains sites malveillants intègrent des payloads qui se déclenchent même sur des ressources statiques, ou des redirections qui peuvent encore tenter de joindre un serveur de commande. D’où l’importance de l’isolement et de l’analyse progressive.

Les limites qu’on rencontre aujourd’hui

Les sites d’aujourd’hui ne sont plus ce qu’ils étaient il y a dix ans. Beaucoup chargent leur contenu via JavaScript, utilisent des frameworks modernes, ou se protègent derrière Cloudflare, Akamai et autres solutions anti-bot. Dans ces cas-là, un aspirateur classique récupère souvent une version incomplète ou cassée. Les liens dynamiques ne sont pas résolus, les contenus chargés à la volée manquent, et parfois le crawler se fait tout simplement bloquer.

C’est pour ça que, sur les cibles les plus sophistiquées, on complète parfois avec d’autres approches : sauvegarde manuelle via les outils développeur du navigateur, extensions spécialisées pour pages uniques, ou des crawlers plus avancés basés sur des navigateurs headless. Mais pour la majorité des cas d’usage en threat intelligence (kits de phishing basiques, anciens panneaux C2, sites compromis avec du contenu statique), les outils traditionnels font encore très bien l’affaire.

Côté vidéos et contenus interactifs, la plupart des aspirateurs récupèrent la page qui les contient, mais rarement le flux vidéo lui-même. Pour extraire des vidéos YouTube, Vimeo ou des médias hébergés ailleurs, il faut généralement des outils dédiés comme yt-dlp ou des solutions spécifiques au téléchargement de médias.

Cas d’usage concrets sur le terrain

Un analyste qui suit une campagne de phishing va souvent aspirer la landing page et le formulaire de collecte avant que le site soit retiré. Ça permet d’étudier la structure du kit, les techniques d’obfuscation utilisées, et parfois de retrouver des indices sur l’infrastructure de l’attaquant.

Sur un serveur de commande et de contrôle qui expose une interface web, la copie locale permet de comprendre les fonctionnalités sans jamais se connecter au vrai serveur et sans que l’opérateur voie une nouvelle IP d’analyse.

Quand un site légitime est compromis et injecte du code malveillant, aspirer les pages affectées aide à documenter l’attaque et à conserver une preuve au cas où le contenu serait modifié ou supprimé plus tard.

Dans tous ces scénarios, l’aspirateur de site web n’est pas un gadget. C’est un moyen simple et efficace de transformer une URL potentiellement dangereuse en un ensemble de fichiers qu’on peut examiner tranquillement, sans exposer sa propre infrastructure et sans alerter la cible.

Au bout du compte, c’est un outil parmi d’autres dans la boîte à outils du threat hunter. Il ne remplace ni l’analyse dynamique en sandbox, ni la corrélation avec des flux de threat intelligence, ni le travail d’équipe. Mais quand il est bien utilisé, dans un environnement isolé et avec un minimum de méthode, il reste étonnamment puissant pour comprendre ce qui se passe vraiment derrière un lien suspect. Et ça, dans un métier où les détails font toute la différence, ça vaut largement le coup de le maîtriser.

Auteur

Conseils Cyber

Nous sommes une équipe d'experts passionnés, convaincus que la sécurité informatique est devenue un enjeu majeur et stratégique pour toutes les organisations, quels que soient leur taille et leur secteur d'activité.