Korben
Cloudflare /crawl - Aspirez un site entier en un seul appel API
11 mars 2026 à 13:47

Cloudflare /crawl - Aspirez un site entier en un seul appel API

Par : Korben

11 mars 2026 à 13:47

Crawler un site entier, ça devrait pas être aussi compliqué. Et pourtant, entre les scripts maison qui cassent tous les 2 jours et les headless browsers qui bouffent de la RAM comme pas permis, c'est assez la galère ! Du coup, Cloudflare, dans sa grande bonté (lol) vient de sortir un endpoint /crawl (en open beta) dans la section Browser Rendering qui simplifie tout ça... vous balancez une URL dessus et hop, ça ASPIRE tout le site (oui oui).

En gros, vous envoyez une requête POST avec l'URL de départ, et le service se charge de découvrir les pages (via le sitemap, les liens internes, ou les deux), de les générer dans un navigateur headless, et de vous renvoyer le contenu en HTML, Markdown ou même en JSON structuré grâce à Workers AI. Le tout de manière asynchron ! Vous, vous récupérez juste un job ID et vous revenez plus tard chercher les résultats quand c'est prêt.

Créer votre token API

Avant toute chose, il vous faut un token API Cloudflare avec la permission "Browser Rendering - Edit". Rendez-vous dans votre dashboard Cloudflare, section API Tokens, et créez-en un nouveau. Notez aussi votre Account ID (visible dans l'URL du dashboard ou dans la section Overview de n'importe quel domaine).

Lancer un crawl

Là, ensuite c'est hyper simple. Un seul appel curl suffit :

curl -X POST "https://api.cloudflare.com/client/v4/accounts/VOTRE_ACCOUNT_ID/browser-rendering/crawl" \
 -H "Authorization: Bearer VOTRE_TOKEN" \
 -H "Content-Type: application/json" \
 -d '{"url": "https://example.com"}'

Et là, vous récupérez un job ID en retour (genre c7f8s2d9-a8e7-4b6e-...). Par défaut, le crawler va explorer 10 pages max avec une profondeur quasi illimitée. Mais bon, 10 pages c'est vite limité, du coup vous pouvez ajuster tout ça comme ceci :

curl -X POST "https://api.cloudflare.com/client/v4/accounts/VOTRE_ACCOUNT_ID/browser-rendering/crawl" \
 -H "Authorization: Bearer VOTRE_TOKEN" \
 -H "Content-Type: application/json" \
 -d '{
 "url": "https://example.com/docs",
 "limit": 50,
 "depth": 3,
 "formats": ["markdown"],
 "render": false,
 "options": {
 "includePatterns": ["https://example.com/docs/**"],
 "excludePatterns": ["**/changelog/**"]
 }
 }'

Le paramètre render: false permet de récupérer le HTML brut sans lancer de navigateur headless, c'est carrément plus rapide pour les sites statiques. Sachez quand même que pendant la beta, ce mode n'est pas facturé ! Youpi !

Récupérer les résultats

Une fois le crawl lancé, vous interrogez le job avec un GET :

curl "https://api.cloudflare.com/client/v4/accounts/VOTRE_ACCOUNT_ID/browser-rendering/crawl/VOTRE_JOB_ID" \
 -H "Authorization: Bearer VOTRE_TOKEN"

Vous obtenez alors le statut (running, completed, errored...) et la liste des pages crawlées avec leur contenu dans le format demandé. Si le résultat dépasse 10 Mo, un curseur de pagination est inclus pour récupérer la suite.

Les options qui tuent

Y'a quelques paramètres bien pensés pour les cas plus avancés :

modifiedSince et maxAge pour du crawling incrémental (ne re-crawler que les pages modifiées récemment)
source: "sitemaps" pour ne suivre que le sitemap au lieu de parser tous les liens
jsonOptions avec un prompt Workers AI pour extraire des données structurées automatiquement (genre récupérer le nom, le prix et le stock de 500 fiches produit d'un e-commerce en une seule passe)
rejectResourceTypes pour bloquer images, fonts et CSS et accélérer le crawl
authenticate pour les sites protégés par une auth HTTP basique

Attention quand même, y'a quelques subtilités à savoir. Un job peut tourner 7 jours max et les résultats sont conservés 14 jours seulement, du coup pensez à les récupérer vite. Le crawler respecte le robots.txt (y compris le crawl-delay), et si un site vous bloque, les URLs apparaissent comme "disallowed" dans les résultats. Sauf que ça ne vous dit pas pourquoi, faudra aller checker le robots.txt vous-même.

Voilà, cette "merveille" pour les scrappeurs fous est dispo sur les plans Free et Paid de Workers , et si vous voulez aller plus loin, Cloudflare propose aussi des endpoints pour les screenshots, les PDF et le scraping ciblé .

Voilà, un petit crawler inclus dans le plan Free de Workers, qui respecte le robots.txt et qui sort du Markdown ou du JSON structuré... je vais surveiller ça de près !

Korben
Directory Dungeon - Un donjon dans vos dossiers Windows
26 février 2026 à 14:10

Directory Dungeon - Un donjon dans vos dossiers Windows

Korben

Par : Korben

26 février 2026 à 14:10

Un dungeon crawler dans l'explorateur de fichiers Windows c'est maintenant une réalité grâce à Directory Dungeon qui transforme votre arborescence de fichiers en donjon, avec monstres, du loot et des combats au tour par tour. Du coup forcément, ça m'a intrigué.

Dans ce jeu, vous ouvrez un dossier C:\DirectoryDungeon sur votre PC et dedans y'a des salles de donjon. Ensuite, pour vous déplacer, vous glissez-déposez votre dossier "Player" dans une nouvelle pièce. Oui du vrai drag-and-drop dans explorer.exe.

Et votre inventaire, c'est un sous-dossier. Vos armes et armures, vous les équipez en les déposant dans le répertoire "Equipment". Et quand vous tombez sur un monstre, le combat se résout automatiquement dans une fenêtre console cmd.exe à côté. Du texte, des chiffres, du tour par tour. C'est old school à mort.

Vous l'aurez compris, y'a pas de surcouche graphique. C'est très nerd comme truc... Vous jouez dans explorer.exe que vous utilisez tous les jours, sauf que là y'a des squelettes dedans. C'est assez absurde en fait et c'est pour ça que ça le fait plutôt bien !

Côté config requise, faut 64 Mo de RAM, 65 Mo de stockage, un processeur 1 GHz minimum et... "un moniteur" comme indiqué dans les prérequis. En fait, si votre PC fait tourner Windows 7, vous pouvez jouer et c'est compatible jusqu'à Windows 11, donc pas besoin d'une bête de course.

Le développeur JuhrJuhr a donc choisi de coller un vrai système RPG complet dans l'arborescence de votre disque dur plutôt que de faire un jeu classique et rassurez-vous, le jeu ne touche à aucun fichier en dehors de son propre répertoire, donc vos documents et autres nudes sont safe. Et comme le mentionne fièrement le dev, aucune IA générative n'a été utilisée pour le développement. On dirait bien que c'est devenu un argument de vente ! lol

Voilà, si vous aimez les dungeon crawlers rétro à l'ancienne ou les délires qui détournent votre OS (genre DOOM en screensaver Windows ), ce petit RPG est pile dans cette veine. Y'a les achievements Steam, le partage familial, et une démo v1.8 déjà dispo pour tester avant la sortie prévue en mars 2026. Seul bémol, c'est Windows uniquement pour le moment, sauf si un portage Linux finit par arriver... On ne sait jamais...

Korben
Prelude of the Chambered Reborn - Le jeu de Notch est de retour dans le navigateur
1 décembre 2025 à 11:36

Prelude of the Chambered Reborn - Le jeu de Notch est de retour dans le navigateur

Korben

Par : Korben

1 décembre 2025 à 11:36

Vous vous souvenez de Notch, le créateur de Minecraft ?

Avant de devenir milliardaire dépressif à temps plein en vendant son jeu à Microsoft, le bonhomme participait à des game jams et pondait des petits jeux en moins de 48 heures. Et Prelude of the Chambered c’était justement l’un de ces projets, créé lors de la Ludum Dare 21 en août 2011 avec le thème “Escape”. Un dungeon crawler à l’ancienne façon Dungeon Master ou Eye of the Beholder, codé en Java.

Hé bien, Angelo Lima vient de le ressusciter en TypeScript et ça tourne direct dans votre navigateur . Qu’il est fort !!

Le projet s’appelle Prelude of the Chambered: Reborn et c’est donc une réécriture complète du code original. Aux chiottes le Java, et bonjour le TypeScript moderne avec Vite pour le build. Le rendu 3D utilise uniquement le Canvas 2D et du raycasting software pur, sans WebGL ni accélération GPU. Bref, tout se fait à l’ancienne, comme dans le jeu original, mais en version web accessible depuis n’importe quel appareil.

Le truc cool avec le jeu de Notch, c’est son système de level design. Les niveaux sont définis par des images PNG où chaque couleur de pixel représente un élément du jeu : mur, porte, ennemi, objet… C’est du “data-driven” avant l’heure, et ça permet à n’importe qui de créer ses propres niveaux sans toucher au code. Angelo a bien sûr conservé ce système dans sa version modernisée.

Côté contenu, vous avez six niveaux à explorer : Prison, Dungeons, Overworld, Crypt, Temple et Ice Cave. Y’a des ennemis plutôt variés comme des chauves-souris, des ogres, des yeux flottants, Jordan Bardella et des fantômes (un intrus s’est glissé dans cette liste), plus des versions boss. Votre objectif c’est donc de collecter quatre clés pour vous échapper, tout en ramassant des power-ups comme le Power Glove, un pistolet, des palmes pour nager et des patins à glace. Le jeu se finit en 20-30 minutes, mais attention !!!! Si vous mourrez, vous recommencez tout depuis le début.

D’ailleurs, petit fun fact, certaines textures d’objets de Prelude of the Chambered ont été réutilisées par Notch dans Minecraft lui-même, notamment pour les armures en cuir, en fer et les épées. Quand on vous dit que le mec recyclait tout, même les pots de yaourts…

Les contrôles c’est du classique… WASD ou les flèches pour bouger, Q/E pour tourner, Espace pour taper ou utiliser des objets, touches de 1 à 8 pour l’inventaire et y’a même un mode plein écran avec la touche F pour les puristes qui veulent l’expérience immersive complète.

Voilà, si vous voulez découvrir un petit bout d’histoire du jeu vidéo indé et voir ce que Notch était capable de pondre en 48 heures bien avant que Minecraft ne devienne le mastodonte qu’on connaît, foncez jouer à Prelude of the Chambered: Reborn .

Merci à Angelo d’avoir partagé sa création lors de mon live sur Twitch .

Korben
Anubis - Protégez votre site web contre les scrapers IA en moins de 15 minutes
16 mai 2025 à 09:37

Anubis - Protégez votre site web contre les scrapers IA en moins de 15 minutes

Korben

Par : Korben

16 mai 2025 à 09:37

Si votre site web est devenu le buffet à volonté préféré des bots de sociétés IA, débarquant par milliers, se servant dans votre bande passante et repartant sans même dire vous laisser un mot sur l’oreiller, alors j’ai une solution pour vous ! Ça s’appelle Anubis, et c’est un outil qui vérifie si vos visiteurs sont de vrais humains ou des aspirateurs à données déguisés.

Car oui, personne n’est épargné ! Par exemple, le bon vieux site kernel.org a dû mettre en place une protection contre ces scrapers qui menaçaient sa disponibilité et ce n’est pas un cas isolé. Codeberg, ScummVM, FreeCAD et même certains sites de l’ONU ont adopté la même solution pour rester en ligne face à cette nouvelle forme de DDoS “légitime”.

Vue normale

Créer votre token API

Lancer un crawl

Récupérer les résultats

Les options qui tuent