Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Botasaurus - Le scraper qui rend Cloudflare aussi facile à contourner qu'un CAPTCHA de 2005

Hey les scrapers de l’espace là, vous en avez marre de vous battre contre Cloudflare comme si c’était le boss final d’un Dark Souls ? Et bien sûr, vous avez testé Selenium et Playwright mais vos bots se font démasquer plus vite qu’un menteur à l’Assemblée Nationale ? Alors ça tombe bien car j’ai trouvé votre nouveau meilleur ami, et il s’appelle Botasaurus.

Derrière ce nom de dinosaure se cache un framework Python open source, conçu pour le scraping web moderne. Créé par Omkar Cloud, il promet de faire passer vos bots pour des humains plus vrais que nature.

La première chose avec Botasaurus, c’est sa capacité à contourner les protections anti-bot. Il passe notamment la barrière de Cloudflare avec brio mais pas seulement, puisqu’il gère aussi très bien PerimeterX, BrowserScan, Fingerprint Bot Detection, et même les CAPTCHA Turnstile. Le créateur du framework a même publié une vidéo où il contourne tous ces systèmes en live. La grande classe !

Concernant Datadome, il semble cependant galérer encore un peu d’après les retours que j’ai eu.

Ce qui démarque Botasaurus, c’est surtout son approche “humane driver” car au lieu d’utiliser bêtement Selenium ou Playwright, le framework ajoute une couche d’humanisation qui simule des mouvements de souris réalistes, des temps de pause naturels, et même des patterns de navigation qui imitent un vrai utilisateur. Du coup vos bots passent incognito avec du style ^^.

Ce framework permet même d’économiser jusqu’à 97% sur les coûts de proxy. Comment ? Et bien en utilisant des requêtes fetch basées sur le navigateur au lieu de lancer un navigateur complet pour chaque requête. C’est malin et ça fait une sacrée différence sur la facture à la fin du mois.

Pour l’installation, c’est du Python classique :

python -m pip install --upgrade botasaurus

Et voici un exemple simple pour scraper un site :

from botasaurus.browser import browser, Driver

@browser
def scrape_heading_task(driver: Driver, data):
# Visite le site via Google Referrer (pour bypass Cloudflare)
driver.google_get(data['url'])

# Récupère le texte du titre
heading = driver.get_text('h1')

return {"heading": heading}

# Lance le scraping
scrape_heading_task()

Ce décorateur @browser gère automatiquement tout le setup du navigateur, les anti-détections, et même la sauvegarde des résultats en JSON. Comme ça, pas besoin de se prendre la tête avec la configuration.

Et pour les cas où vous avez besoin de contourner du Cloudflare plus agressif, il suffit d’ajouter un paramètre comme ceci :

driver.google_get(url, bypass_cloudflare=True)

D’après les benchmarks de ScrapingAnt, Botasaurus est plus furtif qu’undetected-chromedriver et puppeteer-stealth. C’est dire le niveau de sophistication atteint.

Un autre point fort de Botasaurus, c’est également la possibilité de transformer votre scraper en application desktop. En une journée, vous pouvez créer une app pour Windows, Mac et Linux avec une interface graphique complète. C’est génial, car ça vous éviter d’expliquer à vos clients comment lancer un script Python. Ils ont juste une app sur laquelle double-cliquer.

Le framework inclut aussi un serveur web intégré qui permet de créer une UI pour vos scrapers comme ça, avec quelques lignes de JavaScript, vous pouvez définir des formulaires d’input, des filtres, des exports en CSV/Excel, et même une API REST pour intégrer votre scraper ailleurs.

Ce framework brille donc particulièrement pour tout ce qui est :

  • Les sites avec protection Cloudflare basique à modérée
  • Le scraping local ou sur VPS avec peu de volume
  • La création rapide de scrapers avec UI
  • Les projets où l’anti-détection prime sur la performance pure

Par contre, pour du scraping massif à grande échelle ou contre des protections enterprise ultra-sophistiquées, vous devrez probablement combiner Botasaurus avec d’autres outils ou services.

Bref, c’est à tester !

Darkdump - L'outil OSINT qui fouille le dark web pour vous

Si vous avez toujours voulu fouiller le dark web sans y passer 3 heures à chercher dans le noir, j’ai déniché un outil Python qui fait le boulot pour vous : Darkdump.

Créé par Josh Schiavone, Darkdump est une interface OSINT (Open Source Intelligence) qui permet de mener des investigations sur le deep web. En gros, vous tapez un mot-clé, et l’outil va scraper les sites .onion correspondants pour en extraire des emails, des métadonnées, des mots-clés, des images, des liens vers les réseaux sociaux, et j’en passe.

Darkdump utilise Ahmia.fi (un moteur de recherche pour le dark web) pour trouver les sites .onion pertinents, puis il les scrape quand vous êtes connecté via Tor. Bref, c’est Google pour le dark web, en ligne de commande et avec des super-pouvoirs.

Pour l’installer, rien de plus simple :

git clone https://github.com/josh0xA/darkdump
cd darkdump
python3 -m pip install -r requirements.txt
python3 darkdump.py --help

Mais attention, avant de vous lancer, il faut configurer Tor correctement. Sur Linux ou Mac, installez Tor (sudo apt install tor ou brew install tor), puis éditez votre fichier /etc/tor/torrc pour ajouter :

ControlPort 9051
HashedControlPassword [VotreMotDePasseHashé]

Pour générer le hash du mot de passe, utilisez tor --hash-password "mon_mot_de_passe". Ensuite, démarrez le service Tor et vous êtes prêt à explorer les profondeurs du web.

Ce qui est cool avec Darkdump, c’est sa flexibilité. Vous pouvez l’utiliser de plusieurs façons. Voici quelques exemples données dans la doc officielle :

  • Rechercher 10 liens et scraper chaque site : python3 darkdump.py -q "hacking" -a 10 --scrape --proxy
  • Juste récupérer 25 liens sans scraper (pas besoin de Tor) : python3 darkdump.py -q "free movies" -a 25
  • Chercher et télécharger les images : python3 darkdump.py -q "marketplaces" -a 15 --scrape --proxy -i

L’outil peut extraire pas mal de trucs intéressants comme des documents (PDF, DOC, XLS, PPT…), des adresses email, des métadonnées, et même des liens vers des profils de réseaux sociaux. C’est super pour les chercheurs en sécurité ou encore les journalistes d’investigation.

Maintenant, parlons un peu d’Ahmia.fi, le moteur qui fait tourner tout ça. Contrairement à ce qu’on pourrait croire, vous n’avez pas besoin de Tor pour accéder à l’interface d’Ahmia… vous pouvez y aller directement depuis votre navigateur normal. Par contre, pour visiter les sites .onion qu’il trouve, là il vous faudra Tor Browser.

Le moteur de recherche Ahmia

Ce qui est bien avec Ahmia, c’est qu’ils filtrent le contenu illégal comme ça c’est pas le far west total. Ils essaient tant bien que mal de garder ça propre et légal.

En 2025, Ahmia reste donc l’un des moteurs de recherche du dark web les plus fiables, aux côtés de Torch, DuckDuckGo (version Tor), Haystak et Not Evil. Chacun a ses spécificités, mais Ahmia reste le préféré pour sa politique de filtrage du contenu illégal.

Bon, évidemment, je dois faire mon speech de prévention et Josh Schiavone lui-même précise : Il n’est pas responsable de l’utilisation que vous faites de son outil. Ne l’utilisez donc pas pour naviguer sur des sites illégaux selon les lois de votre pays. C’est un outil pour la recherche légitime, l’OSINT, la cybersécurité, pas pour faire n’importe quoi.

D’ailleurs, petite anecdote, la v3 de Darkdump a été mise à jour récemment, et apparemment il y a même des forks qui commencent à apparaître avec des mises à jour complètes. La communauté OSINT est active sur ce projet, ce qui est bon signe pour sa pérennité. Voilà, donc pour ceux qui veulent aller plus loin dans l’OSINT sur le dark web, Darkdump n’est qu’un logiciel parmi d’autres et fait partie d’une boîte à outils plus large qui comprend des trucs comme OnionScan, TorBot, ou encore Dark Web OSINT Tools. Mais pour débuter, c’est vraiment l’un des plus simples et des plus efficaces.

Ça ne transformera pas le dark web en votre terrain de jeu, mais au moins vous verrez où vous mettez les pieds. Et dans un monde où l’information est de plus en plus fragmentée et cachée, c’est pratique, mais souvenez-vous, avec un grand pouvoir vient une grande responsabilité donc utilisez-le à bon escient !

A découvrir ici !

❌