Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Nemotron 3 - Nvidia débarque dans l'open source et crache du token comme jamais

16 décembre 2025 à 11:42

Vous voulez faire tourner un modèle d'IA en local sans avoir besoin d'un serveur de la NASA ? Eh bien Nvidia vient de lâcher une bombe avec Nemotron 3, une famille de modèles open source plutôt impressionnant et surtout, ils ont publié leurs données d'entraînement afin de jouer la transparence totale. Chapeau !

Le modèle phare de cette nouvelle famille s'appelle Nemotron 3 Nano et c'est un modèle de 30 milliards de paramètres, mais attention, il n'en active que 3,5 milliards à la fois grâce à une architecture hybride qui mélange du Mamba-2 et du Mixture-of-Experts ( MoE ). Ça permet de garder des performances de ouf tout en restant léger niveau ressources.

Sous le capot, Nvidia a également mis le paquet puisque le modèle a été entraîné sur 25 trillions de tokens. J'ai bien dit "trillions"... Pour vous donner une idée, les données d'entraînement incluent du Common Crawl de 2013 à 2025, du code dans 43 langages différents, des articles scientifiques, et une tonne de données synthétiques générées par d'autres modèles. Et tout ça, Nvidia l'a rendu public donc vous pouvez télécharger les datasets sur Hugging Face et vérifier par vous-même ce qui a servi à entraîner le bouzin.

Côté performances, Nemotron 3 Nano se défend plutôt bien . Sur les benchmarks de raisonnement mathématique comme AIME25, il atteint 99,2% quand on lui donne accès à des outils. Sur le coding avec LiveCodeBench, il tape du 68,3%, ce qui le place devant Qwen3-30B. Et pour les tâches d'agent logiciel genre SWE-Bench, il monte à 38,8%. Pas mal pour un modèle qu'on peut faire tourner sur du matos grand public.

D'ailleurs, parlons du matos justement. Nemotron 3 Nano tourne sur des cartes comme la H100, la A100, ou même la future RTX PRO 6000 et supporte jusqu'à 1 million de tokens en contexte si vous avez assez de VRAM. Et niveau vitesse, Nvidia annonce un débit de tokens 4 fois supérieur à la génération précédente, avec 60% de tokens de raisonnement en moins. C'est donc exactement ce que tout le monde demande à saoir du token qui sort vite pour les workflows agentiques.

Maintenant, pour l'utiliser, c'est hyper simple. Il est dispo sur Hugging Face, et vous pouvez le lancer avec Transformers, vLLM, TensorRT, ou même llama.cpp. Y'a même un mode "thinking" qu'on peut activer ou désactiver selon si on veut du raisonnement poussé ou des réponses rapides.

Pour ma part, je l'ai testé à l'aide d'Ollama comme ceci :

ollama run nemotron-3-nano:30b

J'ai trouvé que vitesse de génération était vraiment impressionnante, ça débite beaucoup plus qu'un Llama 3 qui est de taille équivalente. Après, je suis sur un Mac M4 avec 128 Go de RAM, donc je suis plutôt bien loti mais j'ai trouvé ce modèle vraiment très rapide. Je pense que je vais vraiment m'en servir pour des trucs comme de la qualification, du résumé, de l'analyse ce genre de choses.

A voir maintenant si en français il s'en sort bien sur les tournures de phrases. Quoi qu'il en soit pour du développement et des workflows agentiques, il n'y a pas photo, ça va être mon nouveau modèle par défaut quand j'ai besoin de choses en local.

La famille Nemotron 3 ne se limite pas au Nano évidemment. Y'a aussi le Super avec environ 100 milliards de paramètres pour les applications multi-agents, et l'Ultra avec 500 milliards pour les tâches vraiment complexes. Ces deux-là arriveront au premier semestre 2026 donc faudra encore être un peu patient. Nvidia a aussi sorti des bibliothèques comme NeMo Gym pour l'entraînement et NeMo RL pour le fine-tuning.

Jensen Huang, le patron de Nvidia, a aussi dit un truc intéressant lors de l'annonce : "L'innovation ouverte est le fondement du progrès de l'IA." Venant d'une boîte qui a longtemps joué la carte proprio sur ses technos, je trouve que c'est un sacré virage et des entreprises comme Accenture, Deloitte, Oracle, Palantir, ou même Cursor sont déjà en train d'intégrer Nemotron dans leurs produits.

Ce qui est cool aussi, c'est que le modèle supporte 24 langues officielles de l'UE plus une dizaine d'autres comme l'arabe, le chinois ou le japonais et côté code, il gère Python, C++, Java, Rust, Go, et même du CUDA. Bref, c'est plutôt polyvalent.

Voilà, donc si vous cherchez un modèle open source sérieux avec des données d'entraînement transparentes et une vitesse de génération qui arrache, Nemotron 3 Nano mérite clairement le coup d’œil !

Source

Cloudflare veut tuer la pub - Bienvenue dans l'ère Net Dollar, le web au centime près avec

Korben

4 octobre 2025 à 15:35

Vous gagnez combien avec la pub sur votre site ??

On est d’accord, c’est dérisoire, et pendant ce temps, Google et Facebook se gavent en revendant votre contenu et l’attention de vos lecteurs à leurs clients. Le modèle est cassé, tout le monde le sait , mais personne n’avait de solution viable… enfin, jusqu’à maintenant.

Matthew Prince, CEO de Cloudflare, vient en effet d’annoncer le lancement du Net Dollar , un stablecoin adossé au dollar américain conçu pour les micropaiements instantanés. Son objectif c’est donc de tuer le modèle publicitaire et le remplacer par du pay-per-use généralisé. Comme ça, terminé le “gratuit financé par la pub”, et bonjour le web à 0,01 euro l’article.

1 Net Dollar = 1 dollar US, puisque c’est un stablecoin adossé au dollar. Il n’y a donc pas la volatilité de Bitcoin et pas de spéculation. C’est vraiment fait pour les transactions, pas l’investissement.

Ainsi, chaque fois qu’un agent IA accède à votre contenu, il paie automatiquement quelques centimes de manière instantanée et cela peu importe où vous vous trouvez… Par exemple, vous êtes en France, un agent IA lit votre article au Japon, et hop vous recevez 0,01 dollar dans la seconde.

On évite ainsi les virements qui mettent du temps, les commissions abusives (coucou Paypal), les seuils minimums avant de prendre le pognon et si ça nous amuse, on peut même facturer 0,0001 dollar par requête API ce qui ne serait pas exemple pas possible avec Visa qui de toute façon prend 0,30 dollars de frais fixes. Là avec Net Dollar, on va pouvoir descendre à des fractions de centimes…

Par exemple, si je me tape dans le mois 50 000 agents IA qui viennent lire un de mes articles, et que je leur facture 0,01 euro par lecture, ça me fait 500 euros dans la poche. Et pour les dev, c’est pareil. Vous pouvez proposer une API gratuitement sans crouler sous les requêtes abusives. Là vous enclenchez un micro-paiement à 0,0001 dollar par requête, comme ça, chacun peut payer à la hauteur de sa consommation. Même chose pour les photographes ou les graphistes, quand une IA utilisera votre photo pour illustrer une de ces réponses….etc.

Bref, c’est plutôt cool pour les créateurs.

Maintenant reste à savoir qui va vraiment payer car ce n’est pas vraiment très clair ? Est ce uniquement les IA de OpenAI, Anthropic, Google qui vont passer à la caisse ? Ou est ce qu’à terme, les humains vont devoir créditer leur navigateur pour pouvoir surfer sur les sites web ? Honnêtement, je n’en sais rien mais si on tombe dans un monde où chaque site exige quelques centimes, je pense que chacun va y réfléchir à deux fois avant de cliquer sur un lien.

Et comme on est sur de la blockchain privée, je vous laisse imaginer le flot de données que ça va apporter à Cloudflare. Ils sauront exactement quel article vous avez lu, ou quel API vous avez utilisé. C’est pas forcement très cool.

Bref, je ne sais pas si le Net Dollar va révolutionner le web, finir de l’achever ou terminer comme toutes ces initiatives qui n’ont jamais décollé, mais à un moment, faudrait qu’on se pose la question de savoir si on préfère se farcir des bannières de pub ou payer 1 centime pour lire un article…

Source

Il refait un ChatGPT avec de la redstone Minecraft

Korben

2 octobre 2025 à 14:10

Vous ne trouvez pas que ChatGPT met un peu de temps à répondre parfois ? Et bien imaginez maintenant devoir attendre 2 heures pour obtenir une réponse de 3 mots. Bienvenue dans le monde de CraftGPT, le ChatGPT entièrement construit en redstone Minecraft par un gars du nom de sammyuri !

Ce dernier a créé un vrai modèle de langage avec 5 087 280 paramètres, construit UNIQUEMENT avec de la redstone. Pas de command blocks. Pas de datapacks. Et pas de mods. Juste de la redstone pure et dure, comme à l’ancienne.

Il a pris un dataset d’entraînement (TinyChat, des conversations basiques en anglais), l’a entraîné en Python comme n’importe quel modèle de langage normal, puis a RECRÉÉ toute l’architecture du modèle dans Minecraft. Un modèle avec 6 couches, 1920 tokens de vocabulaire, une dimension d’embedding de 240, et une fenêtre de contexte de 64 tokens. C’est petit mais assez pour des conversations très courtes.

Et le résultat, c’est une cathédrale de redstone qui occupe un volume de 1020 x 260 x 1656 blocs. Soit 439 millions de blocs au total. C’est tellement gigantesque qu’il a dû utiliser le mod Distant Horizons juste pour filmer l’ensemble, ce qui fait que les composants lointains ont l’air un peu bizarres dans la vidéo parce qu’ils sont rendus avec moins de détails.

Mais ce qui est génial ici, c’est pas vraiment l’exploit technique en lui-même. Enfin si, c’est impressionnant, mais c’est surtout ce que ça nous dit sur la nature même du calcul et de l’intelligence artificielle. Parce qu’en réalité, ce que sammyuri vient de prouver c’est qu’on peut faire de l’IA avec N’IMPORTE QUOI. Des cailloux virtuels dans un jeu vidéo, des dominos, de l’eau, peu importe. Tant que vous avez un système Turing-complet, vous pouvez faire tourner un modèle de langage.

Cela veut dire que l’intelligence artificielle, au final, c’est juste de la logique. Ce sont juste des calculs. Des additions, des multiplications, des comparaisons et cela peu importe le support technique. Qu’on utilise du silicium ultra-rapide ou des torches de redstone qui s’allument et s’éteignent dans un monde cubique, le principe reste le même.

Bon, après, c’est lent car même en utilisant MCHPRS (Minecraft High Performance Redstone Server) qui accélère le jeu à 40 000 fois la vitesse normale, CraftGPT met environ 2 heures pour générer une réponse. Sans cette accélération, ça pourrait prendre jusqu’à 10 ans. Dix ans pour une phrase de quelques mots.

Et dire qu’on râle quand ChatGPT met 3 secondes à répondre, alors qu’on a dans nos poches une puissance de calcul qui aurait fait pleurer de joie Alan Turing…

Sinon, histoire de rentrer un peu plus dans le détail, sammyuri a dû faire face aux mêmes problématiques que les chercheurs en IA d’aujourd’hui. Pour faire rentrer son modèle dans Minecraft, il a dû quantifier la plupart des poids à 8 bits. Les poids d’embedding et de LayerNorm sont stockés à 18 et 24 bits respectivement, mais le gros du modèle est compressé. C’est exactement le même débat qu’actuellement sur l’optimisation des LLMs pour les faire tourner sur des machines moins puissantes.

Et le meilleur dans tout ça c’est que le gars a tout mis en open source sur GitHub . Vous pouvez donc télécharger le monde Minecraft (version Vanilla 1.20.4 ou version MCHPRS), récupérer l’émulateur, les poids du modèle, et le guide pour le faire tourner.

Voilà… Encore un chouette projet inutile, certes mais qui nous permet de nous reconnecter aux fondamentaux pour mieux comprendre les technologies du moment.

Tout est sur ce repo CraftGPT de sammyuri .

Source

Une usine de pâte à modeler en LEGO

Korben

11 juin 2025 à 09:24

Vous pensiez que votre imprimante 3D était le summum de la technologie ? Et bien Dr. Engine vient de vous prouver le contraire avec sa factory LEGO qui transforme de la pâte à modeler en produits manufacturés. Et franchement, c’est pas mal foutu du tout !

Cette machine automatisée combine laminoir motorisé, convoyeur à bande et guillotine de précision pour traiter de la modeling clay (comprenez de la pâte à modeler style Play-Doh) avec un sérieux qui ferait pâlir d’envie certaines chaînes de production industrielles.

Qwen3 - Un équivalent de o3-mini capable de tourner sur votre PC

Korben

29 avril 2025 à 15:56

Je suis content d’avoir investi dans un Mac Studio pour faire tourner des modèles IA un peu plus balèzes du coup, je surveille un peu ce qui sort en ce moment comme modèles, notamment pour coder, et voilà que la famille de modèles Qwen3 vient d’être officiellement lancée, et franchement, ça a l’air plutôt pas mal ! Surtout si vous aimez jouer avec du LLM sans passer par les API payantes de géants de la tech comme OpenAI.