Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Hister - Un vrai moteur de recherche pour votre historique web

Bon, j'ai la crève et y'a du bricolage qui m'attend, du coup aujourd'hui y'aura pas des centaines d'article. Mais faut quand même que je vous parle de Hister , le nouveau projet d'Adam Tauber (le créateur de Searx ) qui indexe localement tout ce que vous visitez sur le web pour le retrouver en texte intégral.

Vous installez l'extension Chrome ou Firefox, vous lancez le binaire Go sur votre machine (ça tourne sous Linux, macOS et Windows), et hop, chaque page que vous visitez est indexée en full-text. Du coup, quand vous cherchez ce tuto que vous aviez lu y'a 3 semaines mais dont vous avez zappé l'URL, vous ouvrez l'interface web locale de Hister, vous tapez un mot qui était dans le contenu de la page et ça ressort ! Si vous aviez testé Deeper History à l'époque, c'est le même concept mais en beaucoup plus costaud.

L'interface de Hister - sobre mais efficace

Sous le capot, Hister utilise blevesearch, un moteur d'indexation en Go qui gère le fuzzy matching et les requêtes booléennes. En gros, vous tapez "configuration nginx reverse proxy" et ça vous ressort cette page de doc que vous aviez consultée y'a un mois, même si vous ne vous souvenez que de 2 mots. Efficace donc. Et l'outil capture les pages telles qu'elles étaient au moment de votre visite donc si un site modifie son contenu ou si un article disparaît, vous aurez toujours la version d'origine. Y'a même un mode aperçu hors-ligne pour consulter ces snapshots sans connexion !

Côté vie privée (forcément, quand ça vient du mec qui a pondu Searx déjà en 2013... le temps file les amis ^^), tout reste sur votre machine. Et pour les domaines sensibles comme votre banque ou votre mutuelle, une blacklist permet même d'exclure certains sites de l'indexation. Enfin pour ceux qui ont déjà des années de navigation derrière eux, la commande hister import aspirera votre historique Chrome ou Firefox existant, comme ça pas besoin de repartir de zéro.

Pour installer ça, téléchargez le binaire depuis les releases GitHub , puis lancez le serveur et installez l'extension ( Firefox ou Chrome) qui va bien. Y'a aussi un Docker Compose pour ceux qui préfèrent tout conteneuriser. Prévoyez aussi quelques Go sur le disque pour la base d'index car ça se rempli vite...

Tauber dit avoir réduit sa dépendance à Google de moitié en un mois et demi juste avec ça. Et je trouve ça logique parce que quand vous avez déjà visité la bonne page une fois, ça ne sert plus à rien de redemander à Google de vous la remonter entre 3 pubs et une réponse IA à côté de la plaque. Autant récupérer ce que vous aviez déjà !

Voilà, je suis sûr que ça va vous plaire... Et si vous voulez tester avant d'installer quoi que ce soit, une démo tourne en ligne.

Allez, je retourne bricoler...

Searloc - La recherche web qui joue à cache-cache

Pensez un peu à la tête des publicitaires si chacune de vos recherches web partait dans une direction complètement aléatoire, comme une boule de flipper qui rebondit entre 50 bumpers différents ? Et bien c’est exactement ce que fait Searloc, et vous allez voir, c’est assez malin.

Alexandre, un développeur français visiblement allergique au pistage en ligne, vient de créer quelque chose d’intéressant. Au lieu de chercher directement sur Google ou même DuckDuckGo, son outil vous envoie de manière totalement aléatoire vers l’une des 50 instances publiques SearXNG disponibles.

Ainsi, aucune instance ne voit plus de 2% de vos recherches, comme ça, pour les trackers qui essaient de créer votre profil, c’est comme essayer de reconstituer un puzzle avec seulement 1 pièce sur 50.

Le plus beau dans tout ça, c’est que Searloc fonctionne entièrement côté client. Pas de serveur, pas de base de données, pas de logs. Juste du JavaScript qui tourne dans votre navigateur et qui tire au sort votre prochaine destination. Je trouve que c’est vraiment une excellente approche de ne pas avoir de serveur fixe, car ça élimine complètement le point de centralisation.

Pour ceux qui ne connaissent pas, SearXNG est un métamoteur qui peut interroger jusqu’à 248 services de recherche différents sans jamais transmettre votre IP ou vos cookies aux moteurs sous-jacents. C’est déjà pas mal niveau privacy, mais le problème c’est que si vous utilisez toujours la même instance, l’administrateur pourrait théoriquement reconstituer votre historique de recherche. Avec Searloc, ce risque disparaît puisque vos recherches sont éparpillées façon puzzle.

L’outil propose quelques fonctionnalités sympa. Par exemple, si les résultats ne vous conviennent pas, tapez simplement “!!” et hop, votre recherche repart sur une autre instance aléatoire. Les bangs (ces raccourcis qui commencent par “!!”) sont gérés localement, donc même vos recherches spécialisées restent privées. Et pour les maniaques du contrôle, vous pouvez même ajouter vos propres instances SearXNG personnelles dans les paramètres.

Faut quand même dire que les alternatives privacy-first comme Startpage, Brave Search ou Qwant se multiplient face à l’appétit insatiable de Google pour nos données, mais là où ces services restent centralisés (même s’ils promettent de ne pas vous tracker… vous savez qui engage ce genre de promesse…), Searloc pousse la logique encore plus loin en décentralisant complètement le point d’entrée.

Maintenant, pour l’utiliser, rien de plus simple. Rendez-vous sur searloc.org et vous tapez votre recherche. L’interface reprend automatiquement vos préférences de thème et de langue pour les transmettre à l’instance SearXNG sélectionnée.

Et le code source est disponible sur Codeberg sous licence MIT, donc les paranos qui on du temps libre peuvent vérifier qu’il n’y a pas d’entourloupe.

Voilà, ce qui me plaît dans cette approche, c’est surtout qu’elle résout élégamment le dilemme de la privacy où soit vous faites confiance à un service centralisé qui promet de ne pas vous tracker (mais qui reste un point unique de défaillance), soit vous auto-hébergez votre instance (mais c’est technique et votre IP reste visible pour les sites que vous visitez). Searloc trouve ainsi un juste milieu en distribuant le risque sur des dizaines d’instances différentes.

Alors oui, c’est vrai, parfois vous tomberez sur une instance un peu lente ou qui affichera des captchas parce qu’elle a été trop sollicitée mais c’est un léger inconvénient de cette décentralisation. Parce qu’entre ça et laisser Google construire un profil psychologique détaillé de toutes vos interrogations existentielles à 3h du mat’, le choix est vite fait.

Merci à Alexandre d’avoir partagé son projet avec moi !

❌