Korben
Le VLIW, cette architecture de processeur "impossible" qui revient par la porte de l'IA
8 avril 2026 à 13:10

Le VLIW, cette architecture de processeur "impossible" qui revient par la porte de l'IA

Par : Korben

8 avril 2026 à 13:10

La chaîne YouTube Asianometry vient de publier une vidéo qui retrace l'histoire du VLIW, une architecture de processeur née dans les années 80 et longtemps considérée comme un échec. Sauf que cette technologie, enterrée avec l'Itanium d'Intel, refait surface dans les puces dédiées à l'intelligence artificielle. Et elle est peut-être déjà dans votre smartphone.

Le principe, et c'est un peu technique

Si vous ne connaissez pas Asianometry, c'est une chaîne qui décortique l'histoire des semi-conducteurs avec un vrai talent de vulgarisation, et cette vidéo sur le VLIW (pour Very Long Instruction Word) ne fait pas exception.

L'idée est assez simple sur le papier. Un processeur classique exécute ses instructions une par une, ou les réordonne à la volée avec du matériel dédié (c'est ce que font les puces modernes avec l'exécution "out-of-order").

Le VLIW fait l'inverse : c'est le compilateur, le logiciel qui transforme le code en instructions machine, qui regroupe à l'avance plusieurs opérations dans un seul "mot" très long. Du coup, le processeur n'a plus qu'à exécuter le paquet en une seule fois, sans se pose la moindre question. Le matos est de fait plus simple, moins gourmand en énergie, et plus rapide.

Le problème, c'est que tout repose sur le compilateur. S'il ne trouve pas assez d'opérations à paralléliser, le processeur tourne à vide. Et écrire un compilateur capable de faire ça correctement, c'est un casse-tête qui a occupé des chercheurs pendant des décennies.

L'Itanium, le plus gros pari raté d'Intel

Les premières tentatives commerciales datent des années 80 avec Multiflow et Cydrome, deux entreprises qui ont fait faillite. Intel a sorti le i860 en 1989, un processeur VLIW quasi impossible à programmer. Et puis il y a eu l'Itanium. Développé avec HP à partir de 1994 sous le nom IA-64, ce processeur devait remplacer le x86 et dominer les serveurs. Les analystes prédisaient la fin des architectures classiques.

Quand l'Itanium est sorti en 2001 après dix ans de développement, les performances étaient décevantes, la compatibilité avec les logiciels existants était catastrophique, et AMD avait entre-temps lancé le x86-64 qui faisait tout pareil en restant compatible avec l'ancien. L'Itanium est devenu un produit de niche avant de disparaître. La presse tech l'a rebaptisé "Itanic", en référence au Titanic.

Le retour par l'intelligence artificielle

Le VLIW n'a jamais complètement disparu. Texas Instruments l'utilise dans ses processeurs de traitement du signal depuis 1997 avec la famille TMS320C6000. Le DSP Hexagon de Qualcomm, celui qui gère l'inférence IA dans les puces Snapdragon, est lui aussi basé sur du VLIW.

Et Groq, la startup qui fait beaucoup parler d'elle pour la vitesse de ses puces d'inférence, utilise une architecture VLIW où le matériel ne prend aucune décision à l'exécution.

L'inférence de réseaux de neurones, c'est justement le type de calcul idéal pour le VLIW : des opérations régulières, prévisibles, massivement parallèles.

Pas besoin de réordonnancer quoi que ce soit, le compilateur peut tout planifier en amont. Des chercheurs travaillent d'ailleurs sur des extensions RISC-V qui intègrent des principes VLIW pour combiner le meilleur des deux mondes.

C'est quand même amusant de voir une technologie enterrée il y a vingt ans revenir grâce à l'IA. Le VLIW a échoué dans les années 2000 parce que le code des logiciels classiques est trop imprévisible pour être optimisé par un compilateur.

Mais l'inférence IA, c'est l'exact opposé : tout est prévisible et régulier. Du coup, l'architecture qui devait remplacer le x86 se retrouve à alimenter les accélérateurs IA de votre Snapdragon. Comme quoi, en informatique, rien ne meurt vraiment.

Source : Hackaday

Korben
TurboQuant - Un LLM de 104B sur un MacBook, merci Google
1 avril 2026 à 15:00

TurboQuant - Un LLM de 104B sur un MacBook, merci Google

Korben

Par : Korben

1 avril 2026 à 15:00

Vous faites tourner des LLMs en local comme le gros fifou de Hipster IA que vous êtes et, Ô drame, la VRAM de votre ordinateur explose dès que le contexte dépasse 8000 pauvres malheureux tokens ?

Le problème c'est le KV cache les amis ! Le KV cache c'est ce truc qui stocke les clés et valeurs d'attention et qui grossit linéairement avec la longueur du prompt. C'est pour gérer ce problème que Google a annoncé sous la forme d'un whitepaper uniquement un algo qui compresse tout ça de 3,8 à 6,4 fois... et youpi pour nous, y'a un dev qui l'a déjà implémenté dans un fork de llama.cpp .

Concrètement ça donne :

llama-server -m model.gguf -ctk turbo3 -ctv turbo3 -fa on

Et vous venez de diviser la mémoire du cache par 4,6. Et voilà comment un énoooorme Command-R+ de 104 milliards de paramètres arrive à tourner à 128K tokens de contexte sur un MacBook M5 Max, avec un pic mémoire max de 74 Go.

Pour bien comprendre pourquoi c'est costaud, faut revenir au problème de base. En fait quand un LLM génère du texte, il stocke pour chaque token passé 2 vecteurs (la clé K et la valeur V) dans un cache. Plus le contexte est long, plus ce cache grossit. Et ça s'accumule vite... Par exemple, sur un Llama 70B avec 128K tokens de contexte, le KV cache en fp16 bouffe à lui seul plus de 40 Go de RAM. Du coup votre modèle Llama 3.1 ou Qwen3 rentre évidemment en mémoire, mais le cache, lui, fait tout déborder comme vous quand vous vous incrustez dans la mini piscine Intex des gosses.

Google a publié son papier TurboQuant fin mars et leur idée c'est de compresser ces vecteurs K et V en 3-4 bits au lieu de 16, sans ré-entraîner le modèle. En fait l'algorithme fait ça en deux étapes...

D'abord PolarQuant : on applique une rotation Walsh-Hadamard aux vecteurs pour "gaussianiser" leur distribution, genre transformer des données qui partent dans tous les sens en une forme bien ronde et prévisible.

Puis on convertit les coordonnées cartésiennes en coordonnées polaires, rayon + angle. Le rayon capture alors l'essentiel de l'information, et l'angle se compresse très bien parce que sa distribution est connue à l'avance.

Ensuite, deuxième étape, QJL (Quantized Johnson-Lindenstrauss) : Il s'agit d'un correcteur d'erreur à 1 bit qui élimine le biais résiduel, le tout sans overhead mémoire pour les constantes de quantification, contrairement aux méthodes classiques comme q4_0 ou q5_1 qui perdent 1-2 bits rien qu'en stockant leurs propres paramètres.

Et c'est là qu'intervient notre développeur de génie, TheTom, qui a pris ce document académique de Google et l'a transformé en code C avec des kernels Metal pour Apple Silicon et CUDA pour NVIDIA. Et c'est pas juste un portage bête et méchant puisqu'il a vraiment poussé les expériences bien au-delà du document original avec une couverture de tests de 100% et des benchmarks sur des modèles de 1.5 à 104 milliards de paramètres.

Et ses découvertes les plus intéressantes c'est justement ce qui n'est PAS dans le paper. Première trouvaille : la compression des valeurs V est gratuite. Compresser V à 2 bits sur Qwen, Llama, Mistral ou Command-R+ n'a aucun impact mesurable sur la qualité d'attention, tant que les clés K restent en q8_0.

Et cela a été confirmé sur Metal M5 Max 128 Go, CUDA RTX 4090 et RTX 3090 par plusieurs testeurs indépendants. C'est franchement contre-intuitif, mais cela veut dire que toute la dégradation de qualité vient de la compression des clés K, et pas de leurs valeurs. Du coup une config asymétrique (K en q8_0, V en turbo3) arrive à récupèrer des modèles où la compression symétrique échoue.

Deuxième trouvaille : les couches limites sont hypersensibles. Protéger les 2 premières et 2 dernières couches en q8_0 pendant qu'on compresse le reste en turbo2 permet de récupérer jusqu'à 91% de la perte de qualité. Et plus le modèle est gros, mieux ça marche. C'est seulement 15 lignes de code, et là encore, y'a aucun impact sur la vitesse.

Troisième trouvaille : Sparse V, un décodage du cache qui saute les positions V à faible poids d'attention permet de gagner environ 23% de vitesse de décodage à 32K tokens de contexte. Et zéro dégradation de la qualité.

Côté chiffres bruts, y'a 3 modes : turbo4 compresse 3.8x et le modèle répond quasi pareil qu'avant. turbo3 compresse 4.6x avec une perte de qualité à peine détectable. turbo2 pousse à 6.4x mais là faut l'utiliser malin (uniquement sur les valeurs V, pas les clés K).

Et dire que pour l'instant Google n'a toujours pas publié de code officiel (mais c'est prévu pour le second trimestre 2026)... Donc pour le moment, cette implémentation communautaire est le seul moyen de tester TurboQuant dans un fork llama.cpp. Ça tourne sur Apple Silicon M1 à M5, NVIDIA RTX 3080 Ti à 5090 et AMD 6800 XT / 9070 XT et visiblement, pas mal de monde a testé sur du matériel varié et les résultats sont au rendez-vous.

Donc voilà, si vous faites de l' inférence LLM locale et que la mémoire vous limite, c'est le moment de tester ça !

Korben
Reverse-SynthID - Le filigrane de Gemini mis à nu
25 mars 2026 à 15:17

Reverse-SynthID - Le filigrane de Gemini mis à nu

Korben

Par : Korben

25 mars 2026 à 15:17

SynthID, le filigrane invisible que Google injecte dans chaque image Gemini, c'était censé être incassable. Sauf qu'un dev a eu l'idée toute bête de générer des images noires et blanches avec Gemini, puis de regarder ce qui restait dans le domaine fréquentiel. Et là, surprise... le watermark est apparu en clair avec toutes ses fréquences porteuses !

Le projet reverse-SynthID documente le truc de A à Z où on comprend en gros, que le marquage IA de Google fonctionne en injectant de l'énergie à des fréquences bien précises dans le spectre de l'image via une transformation de Fourier . Le chercheur a identifié 6 fréquences porteuses principales, toutes avec une cohérence de phase supérieure à 99,9% et la blague, c'est que ce pattern est fixe. Donc pas de message unique par image, pas de clé qui change... c'est juste la même empreinte spectrale sur toutes les images sorties du modèle Gemini.

Spectre FFT du watermark SynthID - les pics lumineux correspondent aux fréquences porteuses identifiées

Du coup, une fois que vous avez profilé cette empreinte avec une cinquantaine d'images PNG de référence (25 noires, 25 blanches, générées via l'API Gemini), vous pouvez faire deux trucs. D'abord, détecter le filigrane avec 90% de précision, sans avoir le moindre accès au code source de Google. Et ensuite le retirer en soustrayant les composantes spectrales identifiées, fréquence par fréquence, tout en préservant la qualité de l'image à plus de 40 dB PSNR. Visuellement identique à l'original !

Et c'est là que la différence avec UnMarker (dont je vous avais parlé) saute aux yeux car ce dernier "secoue" l'image en aveugle pour casser le watermark. Alors que Reverse-SynthID, c'est plutôt scruté à la loupe et hyper ciblé. Résultat, y'a clairement moins de dégradation et un drop de confiance du détecteur.

Les fréquences porteuses reconstruites - la structure diagonale du watermark SynthID

Par contre, je l'ai implémenté en Rust et j'ai essayé de voir si ça marchait vraiment sur mes propres images générée avec Gemini. Hé bien non, car le bypass ne fait PAS chuter la confiance du détecteur de 100 à 0, mais juste de quelques pourcents.

Le watermark est atténué, mais pas effacé. Ce n'est donc pas un outil clé en main pour faire disparaître tous les filigranes SynthID en un clic. Mais le fait qu'une seule personne, avec du Python et du traitement de signal classique (FFT, filtres notch, soustraction spectrale), ait pu reverse-engineerer un système que Google présente comme LA solution anti-deepfakes...

Ça confirme ce que les chercheurs de l'Université de Waterloo avaient déjà démontré : le watermarking d'images IA, c'est pété by design.

D'ailleurs, Google le sait très bien et ils pourraient changer le pattern demain et tout serait à refaire, mais ça confirme surtout que le principe même du watermarking spectral a une date de péremption. Après, ça arrange tout le monde d'avoir un truc à montrer quand les gouvernements demandent "et contre les deepfakes, vous faites quoi ?"

Et si c'est la petite étoile visible en bas à droite des images Gemini qui vous gêne (pas le watermark spectral invisible, juste le marqueur visuel), j'ai développé un outil pour mes Patreons qui s'en occupe.

Bref, tout est sur le repo si le reverse-engineering de watermarks IA, ça vous branche !

Korben
Claude Octopus - Faites débattre 3 IA sur votre code
20 mars 2026 à 11:33

Claude Octopus - Faites débattre 3 IA sur votre code

Korben

Par : Korben

20 mars 2026 à 11:33

Claude Octopus , c'est un plugin Claude Code qui fait bosser trois IA ensemble sur le même problème. Codex pour l'implémentation, Gemini pour la recherche, Claude pour la synthèse, le tout avec un seuil de qualité à 75% qui bloque ce qui n'est pas au niveau.

En gros, au lieu de faire confiance à un seul modèle GPT ou Gemini, vous en mettez trois en parallèle et le plugin ne valide que si les résultats des trois moteurs convergent suffisamment.

Ça s'installe en deux commandes :

claude plugin marketplace add https://github.com/nyldn/claude-octopus.git

claude plugin install octo@nyldn-plugins

Et ensuite, faites un /octo:setup dans votre terminal et c'est parti.

Le truc fonctionne avec Claude seulement sous macOS, Linux ou Windows dès le départ, donc pas besoin de configurer Codex ou Gemini pour démarrer. Il vous guidera pour ça ensuite.

Le plugin embarque 39 commandes, 32 personas spécialisées (par exemple un auditeur sécu qui pense en OWASP, un architecte backend pour les API REST, un designer UI/UX basé sur BM25...etc) et 50 skills. Tout ça s'active ensuite automatiquement selon votre prompt. Vous tapez "wesh audite mon API ma gueule" dans votre terminal zsh et c'est le bon expert qui débarque. Et si vous ne savez pas quelle commande taper, /octo:auto fait le tri pour vous. C'est très pratique.

Le workflow principal suit la méthode Double Diamond (discover, define, develop, deliver) avec des quality gates entre chaque phase. Du coup un bout de code bâclé ne peut pas avancer au stade suivant. Pour les plus flemmards, y'a même un "Dark Factory Mode" qui prend un fichier Markdown en entrée et vous sort du code testé avec un score de satisfaction. Comme ça, vous n'avez qu'à relire que le rapport final au lieu de valider chaque PR manuellement.

Sous le capot, l'orchestrateur écrit en Bash lance Codex CLI et Gemini CLI en parallèle pour la recherche, puis Claude Sonnet 4.6 synthétise les deux réponses. Forcément, trois modèles en parallèle c'est plus lent qu'un seul donc faut compter 30 à 60 secondes par requête. Déso pas déso ^^.

Et pour la revue de code, c'est carrément, pardonnez-moi l'expression, "adversarial" puisque ce sont 4 agents (Codex logique, Gemini sécu, Claude archi, Perplexity pour les CVE ) qui postent des commentaires inline sur vos PR GitHub et y'a ensuite un "reaction engine" qui auto-répond aux échecs CI et aux review comments.

Ce projet c'est quasi l'œuvre d'un seul développeur dévoué et sa vélocité de développement est dingue... Ça vibe code à donf quoi ^^.

C'est gratuit, open source, par contre, chaque provider facture ses tokens normalement, du coup en mode multi-IA vous consommez mécaniquement 3× plus qu'avec Claude tout seul. Après si vous avez déjà un abonnement ChatGPT Plus ou Google AI Pro, les providers passent par OAuth sans clé API supplémentaire, donc ça sera inclus dans votre forfait.

Pour ceux qui utilisent déjà des plugins Claude Code au quotidien ou qui font tourner leurs agents dans des sandbox isolées , c'est le genre d'outil qui mérite un détour.

Bref, trois cerveaux valent mieux qu'un... reste à voir si besoins valent tout ce bordel à configurer !

Korben
Llamafile - Exécutez des modèles de langage en un seul fichier !
19 mars 2026 à 14:00

Llamafile - Exécutez des modèles de langage en un seul fichier !

Korben

Par : Korben

19 mars 2026 à 14:00

llamafile est un projet complètement barré qui va vous permettre de transformer des modèles de langage en exécutables. Derrière se cache en fait la fusion de deux projets bien badass : llama.cpp , un framework open source de chatbot IA, et Cosmopolitan Libc , une libc portable pour compiler des programmes C multiplateformes. En combinant astucieusement ces deux technos, les petits gars de Mozilla ont réussi à pondre un outil qui transforme les poids de modèles de langage naturel en binaires exécutables.

Imaginez un peu, vous avez un modèle de langage qui pèse dans les 4 gigas, dans un format .gguf (un format couramment utilisé pour les poids de LLM). Et bien avec llamafile, vous pouvez le transformer en un exécutable standalone qui fonctionnera directement sur le système sur lequel il est sans avoir besoin d'installer quoi que ce soit. Ça va permettre de démocratiser l'utilisation et la diffusion des LLM.

Et niveau portabilité, c'est le feu puisque ça tourne sur six OS, de Windows à FreeBSD en passant par macOS. Les devs ont bien bossé pour que ça passe partout, en résolvant des trucs bien crados comme le support des GPU et de dlopen() dans Cosmopolitan et croyez-moi (enfin, croyez-les) ça n'a pas été une mince affaire !

Niveau perf aussi c'est du brutal ! Sur Linux llamafile utilise pledge() et SECCOMP pour sandboxer le bousin et empêcher les accès fichiers non désirés et avec les derniers patchs de Justine Tunney , la perf CPU pour l'inférence en local a pris un boost de malade du genre 10 fois plus rapide qu'avant. Même sur un Raspberry Pi on peut faire tourner des petits modèles à une vitesse honnête.

Mise à jour : llamafile 0.10

Bonne nouvelle, le projet est loin d'être mort puisque la version 0.10 vient de sortir (mars 2026) et elle apporte pas mal de changements. Déjà, le projet a migré de Mozilla Ocho vers Mozilla.ai , ce qui montre que Mozilla prend le truc au sérieux côté IA.

Le gros morceau de cette release, c'est un tout nouveau build system. Fini le bazar monolithique, maintenant llama.cpp, whisper.cpp et Stable Diffusion sont intégrés comme des sous-modules Git. L'avantage c'est que ça permet de suivre beaucoup plus facilement les dernières versions de llama.cpp et donc de supporter les modèles les plus récents dès leur sortie.

Côté utilisation, on a maintenant trois modes bien distincts :

Mode TUI (Terminal User Interface) : vous chattez directement dans votre terminal avec le modèle, avec même un mode "think" pour le raisonnement étendu
Mode CLI : pour poser une question rapide en one-shot, genre llamafile "c'est quoi un llamafile ?" et hop, la réponse arrive direct
Mode serveur : avec le flag --server, ça lance le serveur llama.cpp classique pour exposer une API compatible OpenAI

Autre truc cool, le support multimodal est là avec le nouvel argument --image. Vous pouvez balancer une image au modèle et il l'analyse. Ça marche avec des modèles comme Qwen3-VL, LLaVA 1.6 ou Ministral 3.

Côté GPU, Metal fonctionne nativement sur macOS (ARM64) sans bidouille, et le support CUDA est restauré sur Linux. Par contre, le GPU sur Windows n'est pas encore de la partie, et le sandboxing via pledge()/SECCOMP a été temporairement retiré dans cette version.

Bref, si vous aviez testé llamafile il y a un moment et que vous aviez trouvé ça un peu limité, c'est peut-être le moment de retélécharger la bête et de voir ce que ça donne avec les modèles de 2026. C'est toujours aussi simple : un fichier, on le rend exécutable, on le lance, et c'est parti.

Alors on dit merci qui ?

Merci Mozilla ! 🙏🦊

Korben
Comma 4 + openpilot 0.11 - La conduite assistée open source passe un cap
19 mars 2026 à 10:24

Comma 4 + openpilot 0.11 - La conduite assistée open source passe un cap

Korben

Par : Korben

19 mars 2026 à 10:24

Vous vous souvenez quand je vous parlais de Geohot et de sa voiture autonome en 2015 ? Le mec bidouillait une Acura avec des caméras à 13 balles et rêvait de vendre son kit à 1000 balles. Hé bien 10 ans plus tard, c'est fait ! Et si je vous reparle de ça aujourd'hui, c'est parce que sa société comma.ai sort la v0.11 d' openpilot ainsi qu'un nouveau boîtier qui tient dans la main, le Comma 4 !

Alors qu'est-ce qui change avec cette version 0.11 ?

En gros, c'est le premier système de conduite assistée dont le modèle est entièrement entraîné dans une simulation générée par un réseau neuronal.

Comma est donc sorti du simulateur classique avec des règles codées à la main pour passer officiellement sur World Model de 2 milliards de paramètres qui a avalé 2,5 millions de minutes de vidéo de conduite réelle filmées par les dashcams de leurs anciens boîtiers Comma 3 et 3X pour apprendre à simuler tout ce qu'il se passe sur la route.

Et c'est dans cette simulation apprise que le petit réseau neuronal qui pilote votre voiture s'entraîne. Concrètement, openpilot gère le maintien de voie et l'accélération/freinage sur l'autoroute, un peu comme un super régulateur adaptatif. Résultat avec cette v0.11 (qui succède à la v0.10 sortie il y a quelques mois ), ça converge mieux en vitesse, ça réagit mieux autour des voitures garées, et les utilisateurs qui l'ont testé préfèrent carrément ce mode Experimental au régulateur classique de leur voiture.

George Hotz, alias Geohot (le génie qui avait hacké l'iPhone à 17 ans puis la PS3), continue de faire les choses à sa manière et c'est pour ça que je l'adore ! Pas de levée de fonds à 10 milliards, pas de partenariat avec un constructeur auto. Non, juste sa dream team à San Diego qui conçoit, fabrique et assemble tout sur place et dernièrement, ils ont même ouvert leur propre datacenter avec 600 GPU et 4 pétaoctets de stockage... le tout pour environ 5 millions de dollars alors que la même infra en cloud leur aurait coûté 5 fois plus cher.

Donc bravo George pour les économies ^^ !

Côté hardware, le Comma 4 est une petite merveille d'ingénierie. Il est cinq fois plus petit que le Comma 3X, avec la même puissance de calcul (Snapdragon 845 MAX), un écran OLED, triple caméra 360 degrés et un système de refroidissement custom qui ne bride jamais le processeur... le tout sans faire un bruit.

Vous le collez sur votre pare-brise, hop, 5 minutes d'install, pas de temps de séchage (le 3X demandait 48 heures de séchage !), pas besoin de Wi-Fi au démarrage et c'est parti mon kiki. Et c'est compatible avec plus de 300 véhicules , dont Toyota, Hyundai, Honda, Ford et même des Lexus ou des Kia. Cela coûte 999 dollars, ou 699 si vous renvoyez votre ancien appareil, peu importe son état.

Et pour ceux qui se demandent comment ça se compare aux gros... Hé bien pendant que Mercedes met en pause son Drive Pilot de niveau 3 parce que ça coûte trop cher à développer, et que Tesla promet le niveau 5 depuis une décennie sans jamais le livrer, comma.ai sort un truc open source qui marche sur beaucoup de bagnoles lambda (pas les françaises, désolé ^^).

Donc pas besoin de claquer 35 000 à 45 000 euros dans une Tesla pour avoir de l'assistance à la conduite potable. Vous gardez votre Toyota ou votre Honda, vous branchez le Comma 4 sur le bus CAN (le réseau interne de votre voiture) et vous avez un truc qui envoie du bois ! Attention par contre, c'est du niveau 2 : donc vous devez garder les mains sur le volant et les yeux sur la route !! Car le problème c'est qu'en France, la légalité de ce genre de boîtier reste floue, donc renseignez-vous bien avant de foncer. Et sauf si votre bagnole est dans la liste de compatibilité, ça ne marchera pas forcément et là faudra suer un peu dans le code et le reverse pour le portage !

La v0.11 apporte aussi un détail technique qui a son importance. La consommation en veille du Comma 4 est passée de 225 milliwatts à 52 milliwatts, soit une réduction de 77%. Cela veut dire qu'avant ça vidait la batterie de votre bagnole en quelques semaines si vous le laissiez branché sans démarrer la voiture. Mais maintenant c'est plutôt en mois donc on peut le laisser tout le temps actif, ça passe. Pour réussir cette prouesse, ils ont désactivé les périphériques inutiles sur le microcontrôleur STM32, réduit le voltage scaling de VOS1 à VOS3, et mis le CPU en mode stop... du bel embarqué bien optimisé comme on aime !

Ce que je trouve dingue, c'est que c'est open source et qu'il n'y a encore eu aucun constructeur en Europe qui n'a eu la présence d'esprit d'intégrer ça dans ses bagnoles alors que les Chinois ne font que ça depuis des mois.

Perso, j'ai pas encore craqué pour le Comma 4. À vrai dire j'attends qu'il y ait une petite promo parce que 999 dollars ça pique un peu, mais clairement c'est sur ma liste. Mais en tout cas, je ne peux que saluer le chemin parcouru depuis ce prototype de 2015 conçu dans un garage. C'est quand même dingue ce que fait cette boîte avec une fraction des moyens de Tesla ou de Waymo.

Bref, si la conduite assistée open source vous branche, c'est le moment de s'y intéresser.

Korben
Fast SAM 3D Body - Quand l'IA scanne votre corps en 3D en 65ms
17 mars 2026 à 13:33

Fast SAM 3D Body - Quand l'IA scanne votre corps en 3D en 65ms

Korben

Par : Korben

17 mars 2026 à 13:33

Vous prenez une photo de quelqu’un avec votre téléphone et magie magie, en une fraction de seconde, vous obtenez un modèle 3D complet de son corps. Ses bras, ses jambes, ses mains, ses pieds... tout y est, modélisé en 3D comme si vous aviez un vrai studio de motion capture à Hollywood.

Et ben c’est exactement ce que fait SAM 3D Body , un modèle d’IA développé par Meta.

En gros, vous lui filez une image de vous et l’IA reconstruit votre corps en volume, avec le squelette, les articulations et la surface de la peau. Jusqu’ici, ce genre de techno existait déjà mais c’était hyper lent, genre plusieurs secondes par image. Donc pas top si vous vouliez que ça suive, par exemple, vos mouvements en direct.

Et c’est là qu’une équipe de chercheurs incroyable (USC, NVIDIA et Meta Reality Labs) a eu la bonne idée d’optimiser tout ça. Leur version accélérée, baptisée Fast SAM 3D Body , fait exactement le même boulot mais quasiment 11 fois plus vite. Du coup, il ne faut plus que 65 millisecondes pour reconstruire un corps entier en 3D sur une RTX 5090. C’est à peu près le temps d’un clic de souris ! Autrement dit, on peut ENFIN faire du vrai temps réel !

Au lieu de faire tourner un algorithme qui optimise la pose du corps de manière itérative (ce qui prend du temps), ils ont tout simplement remplacé tout ça par un réseau de neurones qui donne directement le résultat en 1 passe. Et cette astuce seule rend la conversion entre formats de modèle 3D plus de 10 000 fois plus rapide ! C'est ouf !

Mais alors concrètement, à quoi ça sert tout ça ?

Hé bien d'abord à la robotique si chère à mon cœur car imaginez un robot humanoïde comme le chinois Unitree G1 équipé d’une simple caméra. Vous faites un geste devant lui, et il le reproduit instantanément avec ses bras et ses jambes.

Robot chinois en dépression à cause d'un dropshipping mal exécuté

Dans la vidéo partagée par l'équipe, on voit que le robot manipule des objets et se déplace en copiant les mouvements d’un humain filmé par une caméra, sans aucun capteur sur le corps.

Mais au delà de la robotique, c’est aussi une petite révolution pour tous les créatifs et les bidouilleurs car aujourd’hui, faire de la motion capture, ça coûte une blinde en matériel (combinaison à marqueurs, caméras infrarouges, studio dédié...et j'en passe).

Alors que là, avec une webcam et un bon GPU, vous pouvoir facilement capter des mouvements 3D exploitables pour de l’animation, du jeu vidéo indie ou du prototypage. Par contre, attention, ça ne remplacera pas un vrai studio pro pour de la production ciné, faut pas trop rêver non plus. Enfin, pour le moment !

Le code est dispo sur GitHub , le paper sur arXiv , et les modèles pré-entraînés de SAM 3D Body sur Hugging Face . D’ailleurs, si vous voulez voir ce que donnent les robots qui font la lessive avec ce genre de techno, c’est par là.

Bref, y’a plus qu’à tester !

Source

Korben
notebooklm-py - L'API Python que Google refuse de sortir
16 mars 2026 à 08:46

notebooklm-py - L'API Python que Google refuse de sortir

Korben

Par : Korben

16 mars 2026 à 08:46

Google n'a jamais sorti d'API publique pour NotebookLM , son outil qui transforme vos documents en podcasts, quiz et autres résumés grâce à l'IA. Pas de SDK, pas de CLI, y'a rien du tout alors on est tous triiiiiste. A peine juste une interface web avec ses boutons moches et ses menus déroulants, mais impossible à scripter ou à intégrer dans le moindre pipeline bash.

Mais un dev bien inspiré a reverse-engineeré les endpoints REST internes et a pondu notebooklm-py, une lib Python de 168 Ko qui fait tout ce que le web UI refuse de faire. Franchement, c'était pas trop tôt ! Vous en avez rêvé, lui l'a fait !

Un pip install notebooklm-py et voilà, vous avez accès à toute la machinerie Notebook LM à savoir : créer des notebooks, injecter des sources (URLs, PDF, vidéos YouTube, fichiers Google Drive, documents Word, images PNG), poser des questions à vos docs, et surtout générer du contenu... podcasts audio en MP3, vidéos explicatives en MP4, quiz, flashcards, slides en PPTX, infographies en PNG, mind maps en JSON.

Carrément dingue ! Et tout ça pilotable depuis votre terminal zsh ou en script Python async.

En fait, le vrai bonus c'est que la lib déverrouille des fonctionnalités que l'interface web ne propose même pas comme télécharger tous vos podcasts d'un coup en batch au lieu de cliquer un par un sur chaque fichier MP3, exporter vos 50 flashcards en JSON structuré au lieu de juste les afficher à l'écran ou encore récupérer vos slides en PPTX éditable plutôt que le PDF figé.

Ce genre de features, on avait fini par accepter que Google s'en fiche mais pourtant, extraire l'arbre complet d'une mind map en JSON pour la balancer dans D3.js ou Mermaid... clairement c'est un truc que Google aurait dû proposer depuis le début !

Côté CLI, c'est propre. Vous vous authentifiez une fois via notebooklm login (ça ouvre Chromium via Playwright pour choper les cookies de session Google), puis vous enchaînez les commandes.

notebooklm create "Ma Recherche" pour créer un notebook vide,

notebooklm source add ./mon-rapport.pdf pour balancer vos fichiers,

notebooklm generate audio "rends ça punchy" --wait pour lancer la génération de podcast,

et notebooklm download audio ./podcast.mp3 pour récupérer le MP3 sur votre disque.

On peut même éditer ses slides individuellement avec des prompts en langage naturel, du genre "ajoute un graphique sur cette slide-là" !

Pour ceux qui veulent brancher ça dans leurs pipelines, y'a comme je le disais l'API Python async complète. Vous pouvez donc monter un petit cron qui ingère vos derniers bookmarks le vendredi soir, et génèrer un résumé audio de 5 minutes, puis balancer le MP3 directement sur votre NAS Synology.

D'ailleurs, si vous avez déjà joué avec des outils pour booster votre productivité avec l'IA , c'est un peu dans la même veine... sauf qu'ici on tape directement dans les tripes des serveurs Google, sans intermédiaire. Ça tourne avec du Python, et y'a même un mode "agent" (un skill en fait) pour brancher ça dans Claude Code ou Codex. Pas mal, hein ?

Le fait que ça gère aussi la recherche web et Drive avec import automatique des résultats dans vos notebooks, c'est top, un peu comme Oboe qui génère des cours complets via IA , mais en version terminal. Et surtout, pas d'abonnement mensuel à payer, c'est votre propre compte Google qui fait tourner la machine.

Bien sûr, ça reste du reverse-engineering d'APIs non-documentées de Google, ce qui fait que les endpoints REST peuvent changer du jour au lendemain et tout péter. Le projet le dit clairement, c'est plutôt taillé pour du prototypage, de la recherche ou des projets perso et SURTOUT PAS pour de la prod sur un serveur Nginx en front avec 10 000 utilisateurs prêts à ruer dans les brancards en cas de panne.

Et puis faut quand même s'authentifier via un vrai compte Google avec Playwright et Chromium, donc pas question de faire tourner ça sur un serveur headless sans un minimum de config.

Bref, tant que Google ne coupe pas ses endpoints, c'est open bar.

Profitez-en !

Korben
OpenRAG - Le RAG clé en main qui vous évite 3 jours de galère
16 mars 2026 à 08:19

OpenRAG - Le RAG clé en main qui vous évite 3 jours de galère

Korben

Par : Korben

16 mars 2026 à 08:19

Monter un pipeline RAG, c'est un peu le parcours du combattant... entre le choix de la base vectorielle, le modèle d'embedding, l'orchestrateur, le parser de documents, vous en avez pour des heures de config avant de pouvoir poser la moindre question à vos PDF.

Mais c'était sans compter sur OpenRAG qui emballe tout ça dans un seul paquet prêt à l'emploi !

En gros, c'est un package open source (Apache 2.0) qui vous colle un orchestrateur visuel, un moteur de recherche vectorielle et un parser de documents hyper costaud, le tout déjà branché ensemble. Bon, dit comme ça, on dirait juste un assemblage de trucs existants... sauf que l'architecture est propre (FastAPI derrière, Next.js devant) et que tout est câblé d'entrée.

L'installation tient en une commande : uv run openrag (il vous faudra Python 3.10+ et uv, le gestionnaire de paquets rapide en Rust) et ensuite vous aurez un serveur local avec une interface de chat prête à bouffer vos documents. Vous uploadez vos fichiers (PDF, Word, HTML, Markdown...), le système les découpe, les indexe, et vous pouvez commencer à poser des questions dessus. Pas besoin de choisir un modèle d'embedding, de configurer une base Chroma ou Qdrant, ni de câbler un pipeline LangChain à la main. C'est plutôt confortable comme outil !

Et c'est pas juste un chatbot documentaire puisque la plateforme déploie une couche agentique qui va bien au-delà de la simple recherche de similarité. En fait, quand vous posez une question, le système ne se contente pas de chercher le passage le plus proche dans vos documents... il reformule, il croise plusieurs sources, il re-classe les résultats par pertinence. Et tout ça se configure visuellement dans Langflow, en mode drag-and-drop, sans écrire une ligne de code.

L'interface d'OpenRAG

D'ailleurs, pour ceux qui veulent aller plus loin, y'a des SDK Python et JavaScript pour intégrer ça dans vos propres apps. Un petit pip install openrag-sdk et vous pouvez interroger votre base documentaire depuis n'importe quel script. Et l'autre truc super chouettos, c'est le serveur MCP intégré : un pip install openrag-mcp et vous connectez directement votre base de connaissances à Claude Desktop ou Cursor. J'utilisais pour ma part LEANN jusqu'à présent mais je pense que je vais basculer rapidement sur OpenRAG. Et grâce à ça votre IDE / Claude Code / Ce que vous voulez, a accès à toute votre documentation technique sans quitter l'éditeur.

Côté technique, le projet est porté par l'équipe de Langflow (DataStax), ce qui explique la qualité de l'intégration. Et le déploiement se fait aussi en Docker, Podman ou Kubernetes pour ceux qui veulent du plus fiable.

Après comme c'est une solution tout-en-un, ça embarque pas mal de dépendances. OpenSearch à lui seul est connu pour être gourmand en ressources et si vous avez déjà votre propre stack RAG bien rodée avec une base vectorielle légère comme LEANN , c'est peut-être overkill. En fait, OpenRAG s'adresse plutôt à ceux qui partent de zéro ou qui veulent un truc clé en main pour une équipe, parce que tout est déjà branché.

Prêt à chatter avec vos docs ?

Le vrai intérêt par rapport à un assistant comme Khoj , c'est le côté plateforme extensible. Langflow vous permet de construire des workflows RAG personnalisés visuellement, d'ajouter des étapes de filtrage, de brancher plusieurs LLM en parallèle, ou de créer des agents spécialisés par type de document. C'est donc clairement plus "usine" que "bricolage"... mais parfois c'est ce qu'il faut, surtout si vous bossez en équipe et que le bricolage perso finit toujours par casser au bout de 3 mois.

Si vous en avez marre de bricoler vos pipelines de recherche augmentée à la main, allez jeter un œil !

Korben
LiteRT - L'IA embarquée de Google passe la seconde
13 mars 2026 à 09:08

LiteRT - L'IA embarquée de Google passe la seconde

Korben

Par : Korben

13 mars 2026 à 09:08

TensorFlow Lite, c'est fini. Enfin presque car Google a rebrandé dernièrement son framework d'inférence embarquée sous le nom de LiteRT , et en a profité pour refaire pas mal de choses sous le capot.

Rassurez-vous mes petits prompts engineers (lol), le principe reste le même à savoir faire tourner des modèles de machine learning directement sur votre smartphone, votre tablette ou votre Raspberry Pi, sans envoyer vos données dans le cloud. Sauf que cette fois, y'a une nouvelle API baptisée Compiled Model qui change la donne car, en fait, l'ancien système vous obligeait à choisir manuellement votre accélérateur.

Avec ce Compiled Model, le runtime sélectionne automatiquement le meilleur accélérateur dispo, que ce soit le CPU, le GPU ou le NPU de votre appareil. Et ça gère l'exécution asynchrone et le zéro-copie côté buffers GPU... donc autant dire que côté latence, on passe de la 2CV au TGV. Bref, moins de bricolage pour les devs.

Côté plateformes, c'est plutôt copieux. Sur Android, ça exploite les NPU de Qualcomm, MediaTek et Google Tensor. Sur iOS, Metal se charge du GPU (et l'Apple Neural Engine arrive bientôt). Linux passe par WebGPU, macOS par Metal, et Windows reste en CPU pour le moment, et Google annonce même un support IoT avec Raspberry Pi. Carrément, du smartphone au micro-contrôleur ! Attention par contre, certains supports NPU sont encore marqués "à venir", donc ne vous attendez pas à tout faire tourner sur n'importe quel chipset dès demain.

D'ailleurs, le gros morceau c'est le support de l'IA générative embarquée. Avec le module LiteRT-LM, vous pouvez déployer des LLMs directement sur le téléphone. Pas de serveur, pas de connexion, tout tourne dans la poche. Bon, faut pas s'attendre à faire tourner un modèle de 70B paramètres sur un Pixel non plus, mais pour les devs qui veulent intégrer du GenAI dans leurs apps mobiles sans dépendre du cloud, c'est franchement pas mal. Et si Ollama vous permet déjà de faire tourner des modèles en local sur votre PC, ici je vous parle carrément d'appareils mobiles et d'embarqué.

Côté langages, y'a le choix : Kotlin et C++ pour la nouvelle API Compiled Model, Swift pour l'API Interpreter sur iOS, Python pour le desktop. Et si vous venez du monde PyTorch, un convertisseur dédié transforme vos modèles au format .tflite sans trop de douleur. L'ancienne API Interpreter reste dispo pour la rétrocompatibilité, mais à vrai dire, Google pousse clairement vers Compiled Model. Du coup, si vous aviez des projets TensorFlow Lite existants, la migration se fait en douceur parce que le format .tflite ne change pas.

En fait, le problème, c'est plutôt le manque de doc sur les cas tordus... et n'oubliez pas de tester vos modèles après conversion.

Pour ceux qui voudraient se lancer, tiens, y'a aussi un codelab de segmentation d'images en temps réel sur Android et une collection de modèles pré-entraînés sur Kaggle. Des apps d'exemple sont dispo sur GitHub pour pas repartir de zéro (détection d'objets, classification d'images, pose estimation...). Et si vous êtes plutôt Apple, sachez que l'IA locale sur mobile c'est clairement la tendance du moment.

Bref, si l'inférence embarquée ça vous parle, ça vaut clairement le coup d’œil !

Korben
MLX-Audio - Faites parler votre Mac sans le cloud
11 mars 2026 à 13:41

MLX-Audio - Faites parler votre Mac sans le cloud

Korben

Par : Korben

11 mars 2026 à 13:41

Faire de la synthèse vocale , de la transcription et du voice cloning en local sur son Mac, sans envoyer le moindre octet dans le cloud... hey bien c'est possible mes petits foufous et en plus comme je sais que vous avez des oursins dans les poches, hé bien bonne nouvelle : C'est gratuit !

MLX-Audio , c'est donc une bibliothèque Python qui exploite le framework MLX d'Apple pour faire tourner des modèles audio directement sur les puces M1, M2, M3, M4 et maintenant M5. Cette liste est trop longue, la prochaine fois, j'écrirais M* ou M1-5 ^^. Avec cette lib, du coup, tout se fait en local sur votre machine. Si je devais oser une comparaison un peu casse gueule, je dirais que c'est un peu le Ollama de l'audio.

Côté text-to-speech, y'a surtout du choix. Une dizaine de modèles sont disponibles, dont Kokoro pour du multilingue (français, anglais, japonais, chinois, espagnol...), Chatterbox qui gère 23 langues, ou encore Dia pour les dialogues. Et voici comment ensuite avec une commande dans le terminal, on peut faire parler la machine :

mlx_audio.tts.generate --model mlx-community/Kokoro-82M-bf16 --text "Salut les copains" --lang_code f --play

Le truc sympa, c'est que ça ne s'arrête pas à la synthèse vocale. Côté transcription, on retrouve Whisper (le modèle d'OpenAI qui gère 99 langues), Parakeet de NVIDIA pour les langues européennes, et même VibeVoice-ASR de Microsoft qui fait de la diarization (identifier qui parle dans une conversation).

Pour transcrire un fichier audio, c'est donc tout aussi simple :

python -m mlx_audio.stt.generate --model mlx-community/whisper-large-v3-turbo-asr-fp16 --audio meeting.wav --verbose

Y'a aussi le voice cloning avec CSM, où vous filez un fichier audio de référence et le modèle reproduit la voix. Perso, ça fait un peu flipper mais qui est carrément bluffant ! Sauf si vous avez une voix super particulière (trop de clope hein ^^), au final le résultat est assez bon.

Attention, tout ça a besoin de mémoire ! Heureusement, la bibliothèque gère la quantization (de 3 à 8 bits), du coup les modèles sont compressés pour tenir dans la mémoire unifiée des puces Apple Silicon. Le plus léger, Kokoro, fait 82M de paramètres et le plus costaud, Ming Omni, monte à 16.8 milliards de paramètres (mais en mixture-of-experts, donc seulement 3B activés à la fois). Pour ce dernier, faut donc un Mac avec pas mal de RAM.

D'ailleurs, si vous êtes développeur, la bibliothèque expose également une API REST compatible OpenAI. Ça veut dire que vos apps qui causent déjà avec l'API d'OpenAI peuvent basculer sur du local sans changer une ligne de code... enfin presque. Car faut quand même pointer vers localhost au lieu des serveurs d'OpenAI, mais c'est à peu près tout. Y'a même un package Swift pour intégrer ça dans une app iOS ou macOS native.

Voilà, pour ceux qui préfèrent une interface graphique, un mode web avec visualisation 3D de l'audio est même intégré. C'est super joli !

Ce projet est sous licence MIT, et le mainteneur, Prince Canuma, est un ancien ingénieur ML chez Arcee AI, donc pas un random qui a forké un truc un dimanche ^^.

Voilà, si vous avez un Mac et que l'audio IA en local vous branche, c'est open source, c'est gratuit et ça marche carrément bien !

Korben
Claude Code - Pilotez votre terminal depuis votre canapé
26 février 2026 à 11:46

Claude Code - Pilotez votre terminal depuis votre canapé

Korben

Par : Korben

26 février 2026 à 11:46

Claude Code tourne en local et c'est son gros avantage car ça permet par exemple d'agir sur votre machine, de lancer des scripts...etc. Mais c'est aussi sa grosse limite car à cause de ça, vous êtes cloué devant votre terminal. J'étais en quête depuis un moment d'une solution et je vous avais déjà parlé de Vibe Companion y'a pas longtemps mais tous ces outils vont disparaitre puisque Anthropic vient de sortir Remote Control, une feature qui transforme claude.ai ou l'app mobile en télécommande pour votre session locale. Comme ça, vos fichiers restent chez vous et seule l'interface voyage.

Votre ordi fait tourner Claude Code normalement, et vous, vous pouvez continuer à lui parler depuis votre iPhone, votre Android, votre iPad ou n'importe quel navigateur Chrome, Firefox, Safari... Pas de serveur exposé, pas de port ouvert, que du HTTPS sortant. C'est plutôt bien foutu vous allez voir !

Ce qu'il vous faut

Bon déjà, un abonnement Pro (Édit : ? on me dit que c'est pas encore actif pour les pro ?) ou Max (pas le choix, les clés API ne marchent pas et les plans Team/Enterprise sont exclus pour le moment). Ensuite, vérifiez que Claude Code est installé et que vous êtes connecté via /login. Acceptez ensuite le "workspace trust" dans votre projet et hop, c'est tout côté prérequis.

Lancer une session

Deux options s'offrent à vous ensuite... Soit vous démarrez une nouvelle session dédiée :

claude remote-control

Soit vous êtes déjà en train de bosser dans Claude Code et vous tapez /rc (alias de /remote-control). Avec claude remote-control, seule l'URL apparaît... donc appuyez sur espace pour afficher le joli QR code.

3 flags utiles (uniquement avec claude remote-control, pas /rc) : --verbose pour voir ce qui transite, --sandbox pour forcer le mode bac à sable (désactivé par défaut) et --no-sandbox pour le couper si vous l'avez activé dans votre config.

Se connecter depuis un autre appareil

Ensuite, la méthode la plus rapide c'est de scanner le QR code avec votre téléphone. Sinon, copiez l'URL affichée et collez-la dans n'importe quel navigateur. Dernière option, allez sur claude.ai/code et votre session apparaît dans la liste (les sessions actives ont un petit point vert).

Une fois connecté, vous récupérez votre conversation en cours, vos fichiers, votre contexte... tout. Vous pouvez envoyer des messages, voir les résultats, approuver les modifications de fichiers. Bref, comme si vous étiez devant votre terminal, sauf que vous êtes dans votre canapé, votre lit ou en train de pousser le caddie chez Auchan !

Activer par défaut

Maintenant, si vous voulez que CHAQUE session Claude Code soit automatiquement accessible à distance, tapez /config dans une session Claude Code, puis activez l'option "Enable Remote Control for all sessions". Et voilà, plus besoin d'y réfléchir ! Chaque claude lancé dans un terminal sera pilotable depuis votre navigateur ou l'app mobile.

Vos sessions prennent le nom de votre dernier message (ou "Remote Control session" par défaut), donc utilisez /rename mon-projet-cool pour les retrouver facilement dans la liste sur claude.ai/code.

Sinon, dans Claude Code avec /mobile vous pouvez aussi afficher directement le QR code pour télécharger l'app Claude sur iOS ou Android.

Les limites à connaître

Bon, après c'est pas non plus parfait car déjà, c'est cappé à UNE SEULE session à distance par instance de Claude Code (si vous en lancez une deuxième, la première se déconnecte). Par contre, plusieurs instances dans des terminaux différents peuvent chacune avoir leur session remote. Le terminal doit également rester ouvert (si vous le fermez, c'est fini). Mais bonne nouvelle quand même, si le laptop passe en veille ou que le réseau saute, ça se reconnectera tout seul au réveil. Le piège, c'est si la machine reste sans réseau plus de 10 minutes... là, la session expire et il faudra relancer claude remote-control.

Soyez rassurés quand même côté sécurité c'est propre (uniquement du HTTPS sortant sur le port 443, zéro port entrant et des identifiants éphémères), mais gardez en tête que Claude Code a accès à votre terminal donc sauf si vous activez --sandbox, il peut de ce fait exécuter n'importe quelle commande... donc les mêmes précautions qu'en local s'appliquent !

Du coup si vous en avez marre de rester scotché devant votre terminal, maintenant vous savez quoi faire.

Merci à Lorenper !

Korben
Xcode 26.3 - Les agents IA Anthropic et OpenAI débarquent enfin !
3 février 2026 à 19:30

Xcode 26.3 - Les agents IA Anthropic et OpenAI débarquent enfin !

Korben

Par : Korben

3 février 2026 à 19:30

Apple vient de lâcher une bombe pour tous les développeurs pommés de leur écosystème. Si vous pensiez que l'IA dans l'IDE se limitait à de l'autocomplétion un peu boostée, accrochez-vous parce que la version 26.3 de Xcode arrive (enfin, sa Release Candidate pour l'instant) et elle apporte avec elle le "codage agentique". Aaah je l'attendais depuis looongtemps !

Concrètement, ça veut dire qu'au lieu d'avoir un simple assistant qui vous suggère la fin de votre boucle "for", vous avez maintenant de véritables agents capables de prendre des initiatives. Donc intégration directe de Claude (Anthropic) et de Codex (OpenAI). Apple qui ouvre les vannes et vous laisse choisir votre moteur préféré parmi ces deux-là au lancement, c'est fou !

Le délire est assez poussé puisque ces agents ne se contentent pas d'écrire du code dans un coin. Ils ont accès à la structure complète de votre projet, à la doc officielle d'Apple (histoire de privilégier les dernières APIs) et peuvent même lancer des builds ou des tests pour vérifier que leur tambouille fonctionne. Si ça plante, ils analysent l'erreur et tentent de corriger le tir tout seuls. C'est un peu comme ce qu'on retrouve déjà dans Cursor et Windsurf.

Perso, ce qui me botte le plus, c'est l'utilisation du Model Context Protocol (MCP) parce que je me sers tout le temps de ça. Pour ceux qui ne suivent pas, c'est un protocole ouvert qui permet d'interfacer Xcode avec des agents compatibles.

Et côté interface, c'est plutôt propre. Y'a un petit panneau à gauche pour donner vos ordres en langage naturel ("Ajoute-moi une vue SwiftUI pour gérer le profil utilisateur avec une image ronde et un dégradé"), et tadaaa, l'agent découpe la tâche en petites étapes. On voit le code changer en temps réel, avec des surbrillances pour ne pas être perdu. D'ailleurs, si le résultat est foireux (ça arrive, hein), Xcode crée des "milestones" à chaque modification effectuée par l'agent pour revenir en arrière en un clic. Pas de panique donc.

Si vous voulez mettre les mains dedans tout de suite, la Release Candidate est dispo depuis ce 3 février sur le site développeur d'Apple. Attention quand même aux prérequis puisque même si Xcode 26.3 tourne sur macOS Sequoia 15.6+, pour profiter des fonctions d'intelligence (l'agentic coding, quoi), il vous faudra impérativement un Mac avec une puce Apple Silicon sous macOS Tahoe.

Et pour ceux qui veulent vraiment monter en compétence, Apple organise un atelier "code-along" ce jeudi 5 février sur son site développeur. C'est l'occasion de voir comment dompter ces agents sans qu'ils ne transforment votre projet en plat de spaghettis.

Bref, le métier de dev est en train de muter sévère et ce nouvel Xcode 26.3 pose une sacrée brique.

A vous de jouer maintenant !

Source

Korben
NVIDIA négociait avec Anna's Archive pour entraîner ses IA... et les emails ont fuité
28 janvier 2026 à 22:21

NVIDIA négociait avec Anna's Archive pour entraîner ses IA... et les emails ont fuité

Korben

Par : Korben

28 janvier 2026 à 22:21

Bon, celle-là elle est gratinée. NVIDIA, le géant des GPU, a directement contacté Anna's Archive pour accéder à environ 500 To de livres piratés. Contacté, négocié, payé. Comme ça, tranquillou.

C'est une class action (dossier n°1:26-cv-00002 au tribunal fédéral de New York, pour ceux qui veulent aller checker) qui a fait fuiter ces fameux emails internes. En gros, un membre de l'équipe "data strategy" de NVIDIA a négocié un accès haute vitesse aux collections piratées de la bibliothèque. Et le plus beau dans l'histoire c'est qu'Anna's Archive les a PRÉVENUS que les données étaient illégales. Genre, texto : "Vous avez une autorisation interne pour ça ?"

La réponse est arrivée en moins d'une semaine. Feu vert. Sauf que bon, quand on lit ça avec du recul, c'est quand même sacrément culotté.

Le contexte, c'était surtout la pression de livrer pour la GTC 2023 (la Developer Conference de NVIDIA). Fallait nourrir les modèles d'IA coûte que coûte, et le dataset Books3 (196 000 bouquins issus de Bibliotik), plus LibGen, Sci-Hub, Z-Library... ça faisait un buffet de 500 To et de leur côté Anna's Archive facturait des dizaines de milliers de dollars pour l'accès rapide.

Sérieux, j'aurais aimé voir la tête du service juridique de NVIDIA en lisant cet email...

En parallèle, Anna's Archive se prend un procès complètement délirant puisque Spotify, Universal Music, Warner et Sony réclament 13 000 milliards de dollars (13 TRILLIONS, soit à peu près le PIB de la Chine). C'est en lien avec leur backup de 300 To de Spotify dont je vous avais parlé ici. Le juge Rakoff a émis une injonction mondiale le 20 janvier, ce qui a fait tomber plusieurs domaines du site .

NVIDIA plaide le "fair use" évidemment. Mouais. On verra bien ce qu'en pensera le juge, mais quand les emails prouvent qu'on t'a prévenu que c'était illégal et que t'as quand même dit "go"... c'est pas ouf comme défense.

En attendant, entre le procès Spotify et ces emails, Anna's Archive est devenue l'ennemi public numéro un de toute l'industrie du contenu sur le web.

Affaire à suivre !

Source

Korben
Comment Boston Dynamics compte construire un cerveau pour Atlas
20 décembre 2025 à 07:38

Comment Boston Dynamics compte construire un cerveau pour Atlas

Korben

Par : Korben

20 décembre 2025 à 07:38

Boston Dynamics que vous connaissez tous pour ses chiens robots tueurs de la mort, vient de sortir une vidéo de 40 minutes. Pas de saltos arrière ou de robots qui dansent mais plutôt une loooongue session où ça parle stratégie IA et vision à long terme. Et comme j'ai trouvé que c'était intéressant, je partage ça avec vous !

Zach Jacowski, le responsable d'Atlas (15 ans de boîte, il dirigeait Spot avant), discute donc avec Alberto Rodriguez, un ancien prof du MIT qui a lâché sa chaire pour rejoindre l'aventure et ce qu'ils racontent, c'est ni plus ni moins comment ils comptent construire un "cerveau robot" capable d'apprendre à faire n'importe quelle tâche. Je m'imagine déjà avec un robot korben , clone de ma modeste personne capable de faire tout le boulot domestique à ma place aussi bien que moi... Ce serait fou.

Leur objectif à Boston Dynamics, c'est donc de créer le premier robot humanoïde commercialement viable au monde et pour ça, ils ont choisi de commencer par l'industrie, notamment les usines du groupe Hyundai (qui possède Boston Dynamics).

Alors pourquoi ? Hé bien parce que même dans les usines les plus modernes et automatisées, y'a encore des dizaines de milliers de tâches qui sont faites à la main. C'est fou hein ? Automatiser ça c'est un cauchemar, car pour automatiser UNE seule tâche (genre visser une roue sur une voiture), il faudrait environ un an de développement et plus d'un million de dollars.

Ça demande des ingénieurs qui conçoivent une machine spécialisée, un embout sur mesure, un système d'alimentation des vis... Bref, multiplié par les dizaines de milliers de tâches différentes dans une usine, on serait encore en train de bosser sur cette automatisation dans 100 ans...

L'idée de Boston Dynamics, c'est donc de construire un robot polyvalent avec un cerveau généraliste. Comme ça au lieu de programmer chaque tâche à la main, on apprend au robot comment faire. Et tout comme le font les grands modèles de langage type ChatGPT, ils utilisent une approche en deux phases : le pre-training (où le robot accumule du "bon sens" physique) et le post-training (où on l'affine pour une tâche spécifique en une journée au lieu d'un an).

Mais le gros défi, c'est clairement les données. ChatGPT a été entraîné sur à peu près toute la connaissance humaine disponible sur Internet mais pour un robot qui doit apprendre à manipuler des objets physiques, y'a pas d'équivalent qui traîne quelque part.

Du coup, ils utilisent trois sources de data.

La première, c'est la téléopération. Des opérateurs portent un casque VR, voient à travers les yeux du robot et le contrôlent avec leur corps. Après quelques semaines d'entraînement, ils deviennent alors capables de faire faire à peu près n'importe quoi au robot. C'est la donnée la plus précieuse, car il n'y a aucun écart entre ce qui est démontré et ce que le robot peut reproduire. Par contre, ça ne se scale pas des masses.

La deuxième source, c'est l'apprentissage par renforcement en simulation. On laisse le robot explorer par lui-même, essayer, échouer, optimiser ses comportements. L'avantage c'est qu'on peut le faire tourner sur des milliers de GPU en parallèle et générer des données à une échelle impossible en conditions réelles. Et contrairement à la téléopération, le robot peut apprendre des mouvements ultra-rapides et précis qu'un humain aurait du mal à démontrer, du genre faire une roue ou insérer une pièce avec une précision millimétrique.

La troisième source, c'est le pari le plus ambitieux, je trouve. Il s'agit d'apprendre directement en observant des humains.

Alors est-ce qu'on peut entraîner un robot à réparer un vélo en lui montrant des vidéos YouTube de gens qui réparent des vélos ? Pas encore... pour l'instant c'est plus de la recherche que de la production, mais l'idée c'est d'équiper des humains de capteurs (caméras sur la tête, gants tactiles) et de leur faire faire leur boulot normalement pendant que le système apprend.

Et ils ne cherchent pas à tout faire avec un seul réseau neuronal de bout en bout. Ils gardent une séparation entre le "système 1" (les réflexes rapides, l'équilibre, la coordination motrice, un peu comme notre cervelet) et le "système 2" (la réflexion, la compréhension de la scène, la prise de décision). Le modèle de comportement génère des commandes pour les mains, les pieds et le torse, et un contrôleur bas niveau s'occupe de réaliser tout ça physiquement sur le robot.

C'est bien pensé je trouve. Et dans tout ce bordel ambiant autour de la robotique actuelle, eux semblent avoir trouver leur voie. Ils veulent transformer l'industrie, les usines...etc. Leur plan est clair et ils savent exactement ce qu'ils doivent réussir avant de passer à la suite (livraison à domicile, robots domestiques...).

Voilà, je pense que ça peut vous intéresser, même si c'est full english...

Korben
Un projet open source qui détecte les nids-de-poule
19 décembre 2025 à 12:00

Un projet open source qui détecte les nids-de-poule

Korben

Par : Korben

19 décembre 2025 à 12:00

Vous savez que depuis quelques années, des startups équipent les camions poubelle et les bus de caméras IA pour cartographier automatiquement l'état des routes ? Comme ça, pendant que le chauffeur fait sa tournée, une intelligence artificielle détecte les nids-de-poule, les fissures et autres joyeusetés routières en temps réel. Chaque défaut est géolocalisé, scoré par gravité, et hop, les équipes de maintenance savent exactement où intervenir.

Bon apparemment, là où j'habite, ils n'utilisent pas ça parce que les routes sont des champs de mines, mais si le Maire se chauffe en DIY, ce projet maintenu par un certain Peter va l'intéresser.

C'est sur GitHub et c'est un stack complet pour faire exactement la même chose que les startups spécialisées en nids de poule... un vrai projet end-to-end avec l'entraînement du modèle sur du GPU cloud, une API backend containerisée, et même une app mobile React Native pour scanner les routes depuis votre téléphone.

Le projet s'appelle pothole-detection-yolo et ça utilise YOLOv8, le modèle de détection d'objets qui fait fureur en ce moment dans le domaine de la vision par ordinateur. Concrètement, le modèle a été entraîné sur un dataset de nids-de-poule disponible sur HuggingFace, avec des images de 640x640 pixels. L'entraînement s'est fait sur Nebius Cloud avec des GPUs H100, donc du sérieux, pas du Colab gratuit qui timeout au bout de 20 minutes.

Ce qui est cool avec ce projet, c'est qu'il ne s'arrête pas au modèle. Y'a une API FastAPI complète qui expose deux endpoints : /detect pour envoyer une image et récupérer les bounding boxes avec les scores de confiance, et /health pour vérifier que le service tourne. Le tout est containerisé en Docker avec support GPU automatique. Et si vous avez pas de carte graphique, ça bascule sur CPU.

Et la cerise sur le gâteau, c'est l'app mobile Expo/React Native. Vous ouvrez l'app, vous prenez une photo d'une route avec votre smartphone, l'image est envoyée à l'API, et vous récupérez les détections en temps réel avec les rectangles dessinés autour des nids-de-poule et les pourcentages de confiance affichés. Bref, c'est exactement ce que font les boites tech à plusieurs millions, sauf que là c'est open source sous licence Apache 2.0.

YOLOv8 atteint facilement entre 93 et 99% de précision pour la détection de nids-de-poule selon les variantes utilisées et des chercheurs ont même combiné YOLOv8 avec des données de nuages de points 3D pour atteindre 95.8% de précision sur des tronçons de tests d'environ 5 km. Bref, c'est du solide et ça fonctionne .

Le truc intéressant pour les bricoleurs, c'est que le modèle entraîné est directement téléchargeable sur HuggingFace donc vous pouvez donc skip toute la partie entraînement si vous voulez juste tester le résultat. Une seule commande Docker pour lancer l'API, et vous êtes opérationnel. Pour les plus motivés qui veulent entraîner leur propre modèle avec des données locales de vos routes françaises pleines de cratères, le code d'entraînement est là aussi avec les configs Ultralytics.

Bref, si vous êtes une petite mairie qui veut cartographier l'état de vos routes sans claquer 50 000 euros dans une solution proprio, ou juste un dev curieux de voir comment fonctionne la stack derrière ces caméras intelligentes qu'on voit de plus en plus sur les véhicules de service, ce projet est une mine d'or.

Tout est là , documenté, et ça fonctionne du feu de dieu.

Korben
84 000 schémas électroniques pour entraîner des IA à concevoir des circuits
18 décembre 2025 à 06:58

84 000 schémas électroniques pour entraîner des IA à concevoir des circuits

Korben

Par : Korben

18 décembre 2025 à 06:58

Vous faites un peu de l'électronique et vous utilisez KiCad pour vos PCB ?

Et si l'avenir de la conception électronique c'était aussi l'IA ? J'en sais rien mais ce qui a l'air de se profiler à l'horizon avec ce dataset qui vient de sortir sur Hugging Face et qui devrait intéresser pas mal de monde. Ça s'appelle Open Schematics et c'est une collection de plus de 84 000 schémas électroniques au format KiCad, prêts à être utilisés pour entraîner des modèles d'IA.

Le truc c'est que jusqu'à maintenant, si vous vouliez créer une IA capable de comprendre ou de générer des schémas électroniques, y'avait pas vraiment de dataset propre et bien structuré pour ça. Bhupendra Hada (alias bshada sur Hugging Face) a donc décidé de combler ce manque en compilant tout ça à partir de projets hardware open source trouvés sur GitHub.

Chaque entrée de son dataset contient donc le fichier schéma brut au format .kicad_sch, une image PNG du rendu, la liste des composants utilisés, et des métadonnées en JSON et YAML. Du coup vous avez tout ce qu'il faut pour entraîner un modèle à faire du text-to-image, de l'image-to-text, ou de la génération de circuits à partir de specs.

Le dataset pèse 6,67 Go au format Parquet et couvre une variété de projets assez dingue. On y trouve des cartes de programmation UART, des amplificateurs à tubes, des onduleurs triphasés open source, des points d'extrémité Zigbee, des projets ESP32+RS232, et même des macropads custom. Bref, y'a de tout, du projet étudiant au truc bien avancé.

Ce qui est cool c'est que le dataset est structuré pour plusieurs cas d'usage. Vous pouvez l'utiliser pour entraîner une IA à reconnaître des composants sur un schéma, à générer de la documentation automatique depuis un circuit, à détecter des erreurs de conception, ou même à suggérer des améliorations. Y'a aussi un potentiel éducatif évident pour créer des outils d'apprentissage interactifs en électronique.

Bien sûr, la qualité et la complexité des schémas varient pas mal d'un projet à l'autre. Certains ont des métadonnées incomplètes, et les conventions de nommage des composants sont pas toujours cohérentes... C'est le souci quand on scrappe des projets open source, y'a du bon et du moins bon mais pour un dataset de cette taille, c'est déjà une base de travail solide.

Le tout est sous licence CC-BY-4.0, donc vous pouvez l'utiliser librement du moment que vous créditez la source. Que vous bossiez sur de l'IA appliquée à l'électronique ou que vous cherchiez juste une grosse base de schémas KiCad à explorer, c'est clairement une ressource à bookmarker.

Source

Vue normale

Le principe, et c'est un peu technique

L'Itanium, le plus gros pari raté d'Intel

Le retour par l'intelligence artificielle

Mise à jour : llamafile 0.10

Ce qu'il vous faut

Lancer une session

Se connecter depuis un autre appareil

Activer par défaut

Les limites à connaître