Korben
Heretic - Virer la censure d'une IA en une commande
26 mai 2026 à 08:08

Heretic - Virer la censure d'une IA en une commande

Par : Korben ✨

26 mai 2026 à 08:08

Y'a des entreprises qui claquent des millions pour bien aligner leurs modèles d'IA afin qu'ils refusent toutes les questions sensibles qui font flipper nos amis puritains d'outre-Atlantique et y'a Heretic , un outil signé Philipp Emanuel Weidmann, qui balaye toute censure sur n'importe quel modèle en moins de 30 minutes avec une simple carte graphique de gamer.

Je vous explique... Vous devez avoir Python et une version récente de PyTorch sur votre machine, puis vous tapez pip install heretic-llm, puis heretic Qwen/Qwen3-4B-Instruct-2507 avec le nom du modèle que vous voulez décensurer.

Et l'outil fait alors sa vie et 20 à 30 minutes plus tard, vous récupérez une version du modèle qui a lâché prise sur l'essentiel de ses refus. Pas de dataset à préparer et surtout pas besoin de comprendre les entrailles d'un transformer, avec ce truc !

Dans un modèle aligné, le réflexe de refuser (le fameux "désolé, je ne peux pas vous aider avec ça") correspond souvent à une direction précise dans ses calculs internes. Les chercheurs appellent ça la "direction de refus". Et l'idée de l'abliteration, c'est de repérer cette direction et de la gommer des poids du modèle. En gros, on coupe le câble qui déclenche le "non", en touchant le moins possible au reste.

D'autres outils d'abliteration existaient déjà , mais leur réglage restait largement manuel et il y a aussi des gens comme mlabonne ou huihui-ai qui publient des modèles décensurés en ajustant les paramètres à la main, modèle par modèle, avec des résultats souvent inégaux. Mais Heretic, lui, automatise complètement le réglage. Pour cela, il s'appuie sur Optuna, un framework d'optimisation qui teste des dizaines de configurations et garde les meilleures tout seul. Et son seul objectif c'est de virer un max de refus tout en abîmant le moins possible le modèle d'origine.

Et de ce que je comprends, ça marche super bien ! Sur Gemma-3-12B, le modèle de Google de base refuse 97 fois sur 100 les prompts sensibles du benchmark maison. Mais après un petit passage dans Heretic, il tombe à 3 refus sur 100, soit le même niveau que les meilleures "nettoyages" manuels.

Et surtout, Heretic affiche une divergence de 0,16 là où les versions faites main grimpent à 0,45 voire 1,04 (C'est une mesure de l'écart de comportement sur les questions normales... plus c'est bas, mieux c'est).

Cela veut donc dire qu'il abîme beaucoup moins le modèle au passage.

Maintenant, tous les modèles n'y passent pas, car un gros calibre demande bien plus de VRAM et cela peut grimper à plusieurs heures. De plus, une étude comparative récente montre que le raisonnement mathématique est ce qui souffre le plus de ce genre d'abliteration, quel que soit l'outil utilisé.

Et surtout, y'a déjà des chercheurs qui bossent sur des défenses pour rendre les modèles résistants à ce genre d'attaque. Donc on verra bien, mais tant que c'est possible autant en profiter car des modèles sans bridage, ça permet notamment à des chercheurs d'étudier leurs propres failles, ou pour des usages du quotidien, de faire passer des demandes banales qui seraient bloquées (genre texte créatif, reverse engineering ou demande de conseils médicaux, ce genre de choses...)

Voilà, si vous bidouillez du LLM en local , allez voir ce projet car ça peut vous "ouvrir" quelques portes ^^.

Korben
Llamafile - Exécutez des modèles de langage en un seul fichier !
19 mars 2026 à 14:00

Llamafile - Exécutez des modèles de langage en un seul fichier !

Korben

Par : Korben

19 mars 2026 à 14:00

llamafile est un projet complètement barré qui va vous permettre de transformer des modèles de langage en exécutables. Derrière se cache en fait la fusion de deux projets bien badass : llama.cpp , un framework open source de chatbot IA, et Cosmopolitan Libc , une libc portable pour compiler des programmes C multiplateformes. En combinant astucieusement ces deux technos, les petits gars de Mozilla ont réussi à pondre un outil qui transforme les poids de modèles de langage naturel en binaires exécutables.

Imaginez un peu, vous avez un modèle de langage qui pèse dans les 4 gigas, dans un format .gguf (un format couramment utilisé pour les poids de LLM). Et bien avec llamafile, vous pouvez le transformer en un exécutable standalone qui fonctionnera directement sur le système sur lequel il est sans avoir besoin d'installer quoi que ce soit. Ça va permettre de démocratiser l'utilisation et la diffusion des LLM.

Et niveau portabilité, c'est le feu puisque ça tourne sur six OS, de Windows à FreeBSD en passant par macOS. Les devs ont bien bossé pour que ça passe partout, en résolvant des trucs bien crados comme le support des GPU et de dlopen() dans Cosmopolitan et croyez-moi (enfin, croyez-les) ça n'a pas été une mince affaire !

Niveau perf aussi c'est du brutal ! Sur Linux llamafile utilise pledge() et SECCOMP pour sandboxer le bousin et empêcher les accès fichiers non désirés et avec les derniers patchs de Justine Tunney , la perf CPU pour l'inférence en local a pris un boost de malade du genre 10 fois plus rapide qu'avant. Même sur un Raspberry Pi on peut faire tourner des petits modèles à une vitesse honnête.

Mise à jour : llamafile 0.10

Bonne nouvelle, le projet est loin d'être mort puisque la version 0.10 vient de sortir (mars 2026) et elle apporte pas mal de changements. Déjà, le projet a migré de Mozilla Ocho vers Mozilla.ai , ce qui montre que Mozilla prend le truc au sérieux côté IA.

Le gros morceau de cette release, c'est un tout nouveau build system. Fini le bazar monolithique, maintenant llama.cpp, whisper.cpp et Stable Diffusion sont intégrés comme des sous-modules Git. L'avantage c'est que ça permet de suivre beaucoup plus facilement les dernières versions de llama.cpp et donc de supporter les modèles les plus récents dès leur sortie.

Côté utilisation, on a maintenant trois modes bien distincts :

Mode TUI (Terminal User Interface) : vous chattez directement dans votre terminal avec le modèle, avec même un mode "think" pour le raisonnement étendu
Mode CLI : pour poser une question rapide en one-shot, genre llamafile "c'est quoi un llamafile ?" et hop, la réponse arrive direct
Mode serveur : avec le flag --server, ça lance le serveur llama.cpp classique pour exposer une API compatible OpenAI

Autre truc cool, le support multimodal est là avec le nouvel argument --image. Vous pouvez balancer une image au modèle et il l'analyse. Ça marche avec des modèles comme Qwen3-VL, LLaVA 1.6 ou Ministral 3.

Côté GPU, Metal fonctionne nativement sur macOS (ARM64) sans bidouille, et le support CUDA est restauré sur Linux. Par contre, le GPU sur Windows n'est pas encore de la partie, et le sandboxing via pledge()/SECCOMP a été temporairement retiré dans cette version.

Bref, si vous aviez testé llamafile il y a un moment et que vous aviez trouvé ça un peu limité, c'est peut-être le moment de retélécharger la bête et de voir ce que ça donne avec les modèles de 2026. C'est toujours aussi simple : un fichier, on le rend exécutable, on le lance, et c'est parti.

Alors on dit merci qui ?

Merci Mozilla ! 🙏🦊

Korben
Nemotron 3 - Nvidia débarque dans l'open source et crache du token comme jamais
16 décembre 2025 à 11:42

Nemotron 3 - Nvidia débarque dans l'open source et crache du token comme jamais

Korben

Par : Korben

16 décembre 2025 à 11:42

Vous voulez faire tourner un modèle d'IA en local sans avoir besoin d'un serveur de la NASA ? Eh bien Nvidia vient de lâcher une bombe avec Nemotron 3, une famille de modèles open source plutôt impressionnant et surtout, ils ont publié leurs données d'entraînement afin de jouer la transparence totale. Chapeau !

Le modèle phare de cette nouvelle famille s'appelle Nemotron 3 Nano et c'est un modèle de 30 milliards de paramètres, mais attention, il n'en active que 3,5 milliards à la fois grâce à une architecture hybride qui mélange du Mamba-2 et du Mixture-of-Experts ( MoE ). Ça permet de garder des performances de ouf tout en restant léger niveau ressources.

Sous le capot, Nvidia a également mis le paquet puisque le modèle a été entraîné sur 25 trillions de tokens. J'ai bien dit "trillions"... Pour vous donner une idée, les données d'entraînement incluent du Common Crawl de 2013 à 2025, du code dans 43 langages différents, des articles scientifiques, et une tonne de données synthétiques générées par d'autres modèles. Et tout ça, Nvidia l'a rendu public donc vous pouvez télécharger les datasets sur Hugging Face et vérifier par vous-même ce qui a servi à entraîner le bouzin.

Côté performances, Nemotron 3 Nano se défend plutôt bien . Sur les benchmarks de raisonnement mathématique comme AIME25, il atteint 99,2% quand on lui donne accès à des outils. Sur le coding avec LiveCodeBench, il tape du 68,3%, ce qui le place devant Qwen3-30B. Et pour les tâches d'agent logiciel genre SWE-Bench, il monte à 38,8%. Pas mal pour un modèle qu'on peut faire tourner sur du matos grand public.

D'ailleurs, parlons du matos justement. Nemotron 3 Nano tourne sur des cartes comme la H100, la A100, ou même la future RTX PRO 6000 et supporte jusqu'à 1 million de tokens en contexte si vous avez assez de VRAM. Et niveau vitesse, Nvidia annonce un débit de tokens 4 fois supérieur à la génération précédente, avec 60% de tokens de raisonnement en moins. C'est donc exactement ce que tout le monde demande à saoir du token qui sort vite pour les workflows agentiques.

Maintenant, pour l'utiliser, c'est hyper simple. Il est dispo sur Hugging Face, et vous pouvez le lancer avec Transformers, vLLM, TensorRT, ou même llama.cpp. Y'a même un mode "thinking" qu'on peut activer ou désactiver selon si on veut du raisonnement poussé ou des réponses rapides.

Pour ma part, je l'ai testé à l'aide d'Ollama comme ceci :

ollama run nemotron-3-nano:30b

J'ai trouvé que vitesse de génération était vraiment impressionnante, ça débite beaucoup plus qu'un Llama 3 qui est de taille équivalente. Après, je suis sur un Mac M4 avec 128 Go de RAM, donc je suis plutôt bien loti mais j'ai trouvé ce modèle vraiment très rapide. Je pense que je vais vraiment m'en servir pour des trucs comme de la qualification, du résumé, de l'analyse ce genre de choses.

A voir maintenant si en français il s'en sort bien sur les tournures de phrases. Quoi qu'il en soit pour du développement et des workflows agentiques, il n'y a pas photo, ça va être mon nouveau modèle par défaut quand j'ai besoin de choses en local.

La famille Nemotron 3 ne se limite pas au Nano évidemment. Y'a aussi le Super avec environ 100 milliards de paramètres pour les applications multi-agents, et l'Ultra avec 500 milliards pour les tâches vraiment complexes. Ces deux-là arriveront au premier semestre 2026 donc faudra encore être un peu patient. Nvidia a aussi sorti des bibliothèques comme NeMo Gym pour l'entraînement et NeMo RL pour le fine-tuning.

Jensen Huang, le patron de Nvidia, a aussi dit un truc intéressant lors de l'annonce : "L'innovation ouverte est le fondement du progrès de l'IA." Venant d'une boîte qui a longtemps joué la carte proprio sur ses technos, je trouve que c'est un sacré virage et des entreprises comme Accenture, Deloitte, Oracle, Palantir, ou même Cursor sont déjà en train d'intégrer Nemotron dans leurs produits.

Ce qui est cool aussi, c'est que le modèle supporte 24 langues officielles de l'UE plus une dizaine d'autres comme l'arabe, le chinois ou le japonais et côté code, il gère Python, C++, Java, Rust, Go, et même du CUDA. Bref, c'est plutôt polyvalent.

Voilà, donc si vous cherchez un modèle open source sérieux avec des données d'entraînement transparentes et une vitesse de génération qui arrache, Nemotron 3 Nano mérite clairement le coup d’œil !

Source

Korben
Cloudflare veut tuer la pub - Bienvenue dans l'ère Net Dollar, le web au centime près avec
4 octobre 2025 à 15:35

Cloudflare veut tuer la pub - Bienvenue dans l'ère Net Dollar, le web au centime près avec

Korben

Par : Korben

4 octobre 2025 à 15:35

Vous gagnez combien avec la pub sur votre site ??

On est d’accord, c’est dérisoire, et pendant ce temps, Google et Facebook se gavent en revendant votre contenu et l’attention de vos lecteurs à leurs clients. Le modèle est cassé, tout le monde le sait , mais personne n’avait de solution viable… enfin, jusqu’à maintenant.

Matthew Prince, CEO de Cloudflare, vient en effet d’annoncer le lancement du Net Dollar , un stablecoin adossé au dollar américain conçu pour les micropaiements instantanés. Son objectif c’est donc de tuer le modèle publicitaire et le remplacer par du pay-per-use généralisé. Comme ça, terminé le “gratuit financé par la pub”, et bonjour le web à 0,01 euro l’article.

1 Net Dollar = 1 dollar US, puisque c’est un stablecoin adossé au dollar. Il n’y a donc pas la volatilité de Bitcoin et pas de spéculation. C’est vraiment fait pour les transactions, pas l’investissement.

Ainsi, chaque fois qu’un agent IA accède à votre contenu, il paie automatiquement quelques centimes de manière instantanée et cela peu importe où vous vous trouvez… Par exemple, vous êtes en France, un agent IA lit votre article au Japon, et hop vous recevez 0,01 dollar dans la seconde.

On évite ainsi les virements qui mettent du temps, les commissions abusives (coucou Paypal), les seuils minimums avant de prendre le pognon et si ça nous amuse, on peut même facturer 0,0001 dollar par requête API ce qui ne serait pas exemple pas possible avec Visa qui de toute façon prend 0,30 dollars de frais fixes. Là avec Net Dollar, on va pouvoir descendre à des fractions de centimes…

Par exemple, si je me tape dans le mois 50 000 agents IA qui viennent lire un de mes articles, et que je leur facture 0,01 euro par lecture, ça me fait 500 euros dans la poche. Et pour les dev, c’est pareil. Vous pouvez proposer une API gratuitement sans crouler sous les requêtes abusives. Là vous enclenchez un micro-paiement à 0,0001 dollar par requête, comme ça, chacun peut payer à la hauteur de sa consommation. Même chose pour les photographes ou les graphistes, quand une IA utilisera votre photo pour illustrer une de ces réponses….etc.

Bref, c’est plutôt cool pour les créateurs.

Maintenant reste à savoir qui va vraiment payer car ce n’est pas vraiment très clair ? Est ce uniquement les IA de OpenAI, Anthropic, Google qui vont passer à la caisse ? Ou est ce qu’à terme, les humains vont devoir créditer leur navigateur pour pouvoir surfer sur les sites web ? Honnêtement, je n’en sais rien mais si on tombe dans un monde où chaque site exige quelques centimes, je pense que chacun va y réfléchir à deux fois avant de cliquer sur un lien.

Et comme on est sur de la blockchain privée, je vous laisse imaginer le flot de données que ça va apporter à Cloudflare. Ils sauront exactement quel article vous avez lu, ou quel API vous avez utilisé. C’est pas forcement très cool.

Bref, je ne sais pas si le Net Dollar va révolutionner le web, finir de l’achever ou terminer comme toutes ces initiatives qui n’ont jamais décollé, mais à un moment, faudrait qu’on se pose la question de savoir si on préfère se farcir des bannières de pub ou payer 1 centime pour lire un article…

Source

Korben
Il refait un ChatGPT avec de la redstone Minecraft
2 octobre 2025 à 14:10

Il refait un ChatGPT avec de la redstone Minecraft

Korben

Par : Korben

2 octobre 2025 à 14:10

Vous ne trouvez pas que ChatGPT met un peu de temps à répondre parfois ? Et bien imaginez maintenant devoir attendre 2 heures pour obtenir une réponse de 3 mots. Bienvenue dans le monde de CraftGPT, le ChatGPT entièrement construit en redstone Minecraft par un gars du nom de sammyuri !

Ce dernier a créé un vrai modèle de langage avec 5 087 280 paramètres, construit UNIQUEMENT avec de la redstone. Pas de command blocks. Pas de datapacks. Et pas de mods. Juste de la redstone pure et dure, comme à l’ancienne.

Il a pris un dataset d’entraînement (TinyChat, des conversations basiques en anglais), l’a entraîné en Python comme n’importe quel modèle de langage normal, puis a RECRÉÉ toute l’architecture du modèle dans Minecraft. Un modèle avec 6 couches, 1920 tokens de vocabulaire, une dimension d’embedding de 240, et une fenêtre de contexte de 64 tokens. C’est petit mais assez pour des conversations très courtes.

Et le résultat, c’est une cathédrale de redstone qui occupe un volume de 1020 x 260 x 1656 blocs. Soit 439 millions de blocs au total. C’est tellement gigantesque qu’il a dû utiliser le mod Distant Horizons juste pour filmer l’ensemble, ce qui fait que les composants lointains ont l’air un peu bizarres dans la vidéo parce qu’ils sont rendus avec moins de détails.

Mais ce qui est génial ici, c’est pas vraiment l’exploit technique en lui-même. Enfin si, c’est impressionnant, mais c’est surtout ce que ça nous dit sur la nature même du calcul et de l’intelligence artificielle. Parce qu’en réalité, ce que sammyuri vient de prouver c’est qu’on peut faire de l’IA avec N’IMPORTE QUOI. Des cailloux virtuels dans un jeu vidéo, des dominos, de l’eau, peu importe. Tant que vous avez un système Turing-complet, vous pouvez faire tourner un modèle de langage.

Cela veut dire que l’intelligence artificielle, au final, c’est juste de la logique. Ce sont juste des calculs. Des additions, des multiplications, des comparaisons et cela peu importe le support technique. Qu’on utilise du silicium ultra-rapide ou des torches de redstone qui s’allument et s’éteignent dans un monde cubique, le principe reste le même.

Bon, après, c’est lent car même en utilisant MCHPRS (Minecraft High Performance Redstone Server) qui accélère le jeu à 40 000 fois la vitesse normale, CraftGPT met environ 2 heures pour générer une réponse. Sans cette accélération, ça pourrait prendre jusqu’à 10 ans. Dix ans pour une phrase de quelques mots.

Et dire qu’on râle quand ChatGPT met 3 secondes à répondre, alors qu’on a dans nos poches une puissance de calcul qui aurait fait pleurer de joie Alan Turing…

Sinon, histoire de rentrer un peu plus dans le détail, sammyuri a dû faire face aux mêmes problématiques que les chercheurs en IA d’aujourd’hui. Pour faire rentrer son modèle dans Minecraft, il a dû quantifier la plupart des poids à 8 bits. Les poids d’embedding et de LayerNorm sont stockés à 18 et 24 bits respectivement, mais le gros du modèle est compressé. C’est exactement le même débat qu’actuellement sur l’optimisation des LLMs pour les faire tourner sur des machines moins puissantes.

Et le meilleur dans tout ça c’est que le gars a tout mis en open source sur GitHub . Vous pouvez donc télécharger le monde Minecraft (version Vanilla 1.20.4 ou version MCHPRS), récupérer l’émulateur, les poids du modèle, et le guide pour le faire tourner.

Voilà… Encore un chouette projet inutile, certes mais qui nous permet de nous reconnecter aux fondamentaux pour mieux comprendre les technologies du moment.

Tout est sur ce repo CraftGPT de sammyuri .

Source

Une usine de pâte à modeler en LEGO

Korben

Par : Korben

11 juin 2025 à 09:24

Vous pensiez que votre imprimante 3D était le summum de la technologie ? Et bien Dr. Engine vient de vous prouver le contraire avec sa factory LEGO qui transforme de la pâte à modeler en produits manufacturés. Et franchement, c’est pas mal foutu du tout !

Cette machine automatisée combine laminoir motorisé, convoyeur à bande et guillotine de précision pour traiter de la modeling clay (comprenez de la pâte à modeler style Play-Doh) avec un sérieux qui ferait pâlir d’envie certaines chaînes de production industrielles.

Korben
Qwen3 - Un équivalent de o3-mini capable de tourner sur votre PC
29 avril 2025 à 15:56

Qwen3 - Un équivalent de o3-mini capable de tourner sur votre PC

Korben

Par : Korben

29 avril 2025 à 15:56

Je suis content d’avoir investi dans un Mac Studio pour faire tourner des modèles IA un peu plus balèzes du coup, je surveille un peu ce qui sort en ce moment comme modèles, notamment pour coder, et voilà que la famille de modèles Qwen3 vient d’être officiellement lancée, et franchement, ça a l’air plutôt pas mal ! Surtout si vous aimez jouer avec du LLM sans passer par les API payantes de géants de la tech comme OpenAI.

Vue normale

Mise à jour : llamafile 0.10