Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierKorben

JaiLIP - L'image piégée qui débride les IA qui voient

Par : Korben ✨
28 juin 2026 à 06:19

Md Jueal Mia et Hadi Amini, deux chercheurs de Florida International University , ont mis au point une méthode qu'ils ont baptisée JaiLIP qui permet de forger une image capable de contourner les garde-fous des LLM pour les jailbreaker.

Pour cela, ils utilisent 2 techniques en simultanée. La première dit à l'image "reste identique à l'originale, qu'aucun humain ne voie la moindre différence" et la seconde dit "pousse le modèle à cracher la réponse interdite". Ainsi, en poussant ces 2 curseurs d'un coup, ils obtiennent une photo qui au premier abord a l'air normale mais qui fait dérailler les modèles IA.

Vous, vous repérez un chat, des contours, une scène et vous lui courez derrière pour lui faire des papouilles. L'IA, elle voit une grille de chiffres et des corrélations entre pixels. Du coup sa vie est nulle mais surtout, une retouche minuscule, totalement invisible à votre œil, suffit à déplacer ce qu'elle comprend de l'image.

Sur leurs tests, l'image trafiquée a quasiment doublé la part de réponses dangereuses par rapport à la même image laissée intacte, la toxicité étant mesurée avec des outils standards du domaine. Dans l'un de leurs exemples, ils ont trafiqué une image de signalisation routière qui a permis au modèle ensuite d'expliquer OKLM comment ignorer les règles de circulation et éviter les PV.

Les chercheurs ont testé l'attaque sur deux modèles vision-langage open source, BLIP-2 et MiniGPT-4. GPT-4V, Gemini et les autres gros modèles fermés, eux, n'ont pas été testés dans l'étude. Donc non, contrairement à ce que j'ai pu lire par ci et par là, ce n'est pas une faille prouvée dans ChatGPT ou peu importe l'assistant IA que vous utilisez tous les jours.

Et tromper une IA avec une image bricolée, ça existe depuis une bonne dizaine d'années. Mais la nouveauté de JaiLIP, c'est surtout sa recette d'optimisation. En jouant sur les deux pertes à la fois, l'image reste plus discrète à l'œil tout en se montrant un cran plus efficace que les bidouilles précédentes.

Et ce genre de détournement nous concerne tous parce que des modèles qui regardent des images, il y en a partout maintenant. Les agents IA qui bossent à partir de captures d'écran, les assistants à qui vous balancez vos photos, sans oublier la modération automatique qui trie les images avant publication. À cause de ça, l'image est dorénavant un canal d'attaque, exactement comme l'était déjà le texte...

On l'a vu avec le son inaudible qui pirate les assistants vocaux , on l'a vu avec les IA qu'on manipule sans qu'elles s'en aperçoivent , et c'est toujours la même logique qui revient. Ce n'est pas parce qu'en tant qu'humain, nous ne percevons rien, que l'IA elle n'est pas capable de capter le message 5/5.

Le cousin de cette attaque, côté perception, c'est par exemple le sticker qui trompe une voiture autonome . Et côté parade, nos chercheurs esquissent une piste légère : virer au hasard 10 à 30% des mots passés en entrée, histoire de casser l'attaque sans réentraîner le modèle.

Prometteur d'après eux, mais c'est pas encore une solution blindée. Pour le reste, leurs conseils tiennent du bon sens : Ne passez pas d'infos sensibles en image à un modèle, limitez qui peut envoyer des images à vos systèmes, et auditez sérieusement la sécurité avant de mettre un VLM en prod.

C'est pas le graal mais c'est mieux que rien. Bref méfiez vous des images que vous donnez à vos IA. On ne sait jamais.

Source : le papier JaiLIP sur arXiv

La faille d'Amazon Q : ouvrir un projet suffisait à se faire voler ses accès au cloud

27 juin 2026 à 10:52

Amazon Q, l'assistant de programmation dopé à l'IA que propose Amazon, pouvait se faire piéger d'une manière aussi simple qu'embarrassante.

Petit rappel pour situer. Amazon Q se greffe dans Visual Studio Code, l'éditeur de code de Microsoft que les développeurs utilisent au quotidien, et sert à écrire ou corriger du code à votre place.

Des chercheurs de Wiz, une société spécialisée dans la sécurité du cloud, ont découvert que cet assistant exécutait des commandes cachées à la simple ouverture d'un projet. La faille a reçu un identifiant officiel, CVE-2026-12957, et une note de gravité de 8,5 sur 10, ce qui est sérieux.

Le problème venait d'un fichier de configuration un peu particulier. Pour fonctionner, Amazon Q lit un fichier nommé .amazonq/mcp.json, qui s'appuie sur le MCP, pour Model Context Protocol, une sorte de prise standardisée qui permet de brancher une IA sur des outils extérieurs.

Sauf qu'il suffisait d'ouvrir un dépôt de code et d'activer Amazon Q pour que l'extension aille lire ce fichier et exécute son contenu. Sans fenêtre de confirmation, sans demander votre avis, et sans vérifier si vous faisiez confiance au dossier que vous veniez d'ouvrir.

Et c'est là que ça devient vraiment fourbe. Ces commandes héritaient de tout votre environnement de travail. Du coup, elles pouvaient récupérer au passage vos clés d'accès au cloud d'Amazon, vos jetons de connexion, vos secrets d'API et même l'accès à votre agent SSH, ce trousseau qui garde en mémoire vos connexions aux serveurs distants. En clair, tout ce qu'un développeur laisse ouvert pendant qu'il travaille.

Le plus gênant, c'est que Visual Studio Code possède justement une sécurité prévue pour ça, la confiance d'espace de travail, qui vous demande si vous validez un dossier avant de le laisser agir. L'extension d'Amazon passait tout bonnement par-dessus.

Pour un pirate, le piège était facile à tendre. Il suffisait de glisser ce fichier dans un projet open source d'apparence anodine, ou dans un bout de code partagé sur un forum, et d'attendre qu'un développeur qui récupère un projet l'ouvre pour voir comment il fonctionne.

Amazon a corrigé le tir dans la version 1.65.0 de son serveur de langage et a confirmé la correction. Wiz note d'ailleurs que des failles très proches ont déjà touché d'autres outils de code boostés à l'IA.

Donner autant de pouvoir à une IA sans le moindre garde-fou, et laisser filer les clés du cloud avec, ça reste une erreur de débutant pour un géant comme Amazon.

Source : The Register

Dropbox se branche à Claude Code et lui permet de lire vos fichiers

Par : Korben ✨
26 juin 2026 à 16:22

Dropbox vient de sortir un plugin pour Claude Code , et leur idée c'est de pouvoir brancher vos fichiers Dropbox directement dans vos sessions de dev Claude Code / Cowork.

Alors je me suis demandé à quoi ça pouvait bien servir et voici ce que j'ai compris. Une fois que le plugin est en place, ça permet à Claude Code d'aller piocher dans votre Dropbox vos docs techniques, vos cahiers des charges, votre code...etc pour s'en faire du contexte. Tout devient de la matière fraiche pour corriger ou générer du code et quand c'est fini, ce qui est produit peut être à son tour stocké sur Dropbox.

Le plugin sait récupérer les fichiers en fonction de leur nom, de mots clés, de leur emplacement et bien sûr en fonction de leurs méta données. Même vos liens partagés il sait comment les gérer. Bref, il fait tout simplement le passe-plats entre tout le bordel que vous stockez sur Dropbox et Claude Code.

Cela dit, gardez la tête froide parce que tout ce que l'IA lit part sur les serveurs d'Anthropic pour être traité. Donc évitez quand même de le lâcher sur le dossier qui contient vos contrats, vos mots de passe ou vos données clients. Lui autoriser juste un dossier dédié avec ce que vous acceptez de partager, ce sera plus sain.

Pour l'installer, ça se passe dans Claude Code sur le web. Vous filez dans le menu Personnaliser, Connecteurs puis vous cherchez Dropbox en parcourant les plugins et vous cliquez sur ajouter. Une auth OAuth plus tard (vos identifiants Dropbox habituels), c'est branché. Un petit /reload-plugins et le plugin s'active alors dans la session en cours.

En plus de ce plugin, Dropbox propose également un serveur MCP classique en ligne de commande qui est un peu plus souple et surtout peut se brancher dans Cursor, Claude Desktop ou Devin.

Un bémol quand même, c'est pas open bar... sniiif. Eh oui, Dropbox plafonne tout ça à 5 Mo par fichier lu ou créé via l'intégration, et le contenu pondu par Claude ne se sauvegarde qu'en texte (.txt, .md, .html, .py), et pas en image ni en PDF. Quant aux limites de débit de l'API, on ne les connaît pas.

Bref, pour les gros fichiers ou les binaires, faudra donc passer par autre chose.

Si vous vivez dans Claude Code et que votre vie est rangée dans Dropbox, ça vaut peut-être le coup de jeter un œil ici.

Dream Server - Un serveur IA complet chez vous en une commande

Par : Korben ✨
26 juin 2026 à 14:41

Monter une vraie IA à la maison, c'est vite une galère. Vous achetez une super machine puis vous collez dessus toute votre liste au père Noël (Chat local, reco vocale, génération d'image, RAG et compagnie) et vous voilà à empiler des dockers à n'en plus finir. Eh bien Light Heart Labs en a eu marre de ces bricolages et nous a pondu Dream Server, un outil qui câble tout ce petit monde à votre place !

Une seule commande et c'est parti mon kiki (Linux et macOS) :

curl -fsSL https://raw.githubusercontent.com/Light-Heart-Labs/DreamServer/main/dream-server/get-dream-server.sh | bash

Ou Windows :

Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass
git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer
.install.ps1

Ça va lancer le script qui va ensuite tout paramétrer tout seul et choisir le modèle d'IA qui collera le plus à votre matériel, et cela que vous ayez une RTX 4090, un Mac M4 avec mémoire unifiée ou encore une puce AMD Strix Halo voire un vieux PC sans GPU.

Edit : un lecteur m'a remonté un piège si vous êtes sous Linux configuré en français (ou n'importe quelle locale qui écrit les décimales avec une virgule). Le script génère tout seul les valeurs de votre fichier .env en suivant le format de nombres de votre système, et il vous colle des 16,0 au lieu de 16.0. Du coup l'install se vautre avec une erreur dans le genre COMFYUI_CPU_LIMIT: expected number, got '16,0'. La parade, confirmée par un des auteurs, c'est de relancer l'installeur en forçant la locale C (celle qui met des points à la place des virgules) :

LC_ALL=C ./install.sh

Ensuite, pendant que le LLM se télécharge à fond les ballons, un autre petit modèle de 1,5 milliards de paramètres en backup afin que vous puissiez quand même "discuter" avec votre Dreamserver.

Le rôle de Dreamserver c'est donc juste de prendre toutes les briques de l'IA pour vous en faire un truc clé en main. Open WebUI pour le chat, llama-server pour l'inférence, Whisper et Kokoro pour la voix, ComfyUI pour les images, Qdrant pour le RAG, SearXNG pour la recherche web sans mouchard, et bien sûr n8n pour brancher tout ça à vos automatisations.

Et une fois que c'est en route, suffit de lancer la commande dream et là vous pourrez tout faire.

Par exemple dream status pour visualiser l'état des services et du GPU, dream model swap T3 pour changer de "palier" sur votre matos, dream enable n8n pour activer une extension ou encore dream mode hybrid pour avoir de l'inférence en local avec possibilité de basculer sur une IA dans le cloud via une API.

Dreamserver reste un orchestrateur, et pas un moteur IA magique, donc si vous adorez tout assembler vous-même, vous n'avez clairement pas besoin de ça. Par contre, si vous vous en foutez, et que vous voulez juste votre IA qui tourne ce soir, ça vous fera gagner des heures de bidouille.

Faut dire qu'à mesure que l'IA devient une infrastructure de base, dépendre à 100% d'un abonnement cloud qui peut tripler ses tarifs ou couper votre accès du jour au lendemain, ça craint un peu. Donc je pense qu'on est tous bien contents d'avoir des solutions clé en main comme celle-ci.

Si ça vous tente, c'est sur le dépôt de Dream Server .

Une IA a lu un rouleau carbonisé par le Vésuve il y a près de 2 000 ans

26 juin 2026 à 08:38

Pour la première fois, on connaît le titre exact d'un livre antique sans avoir ouvert le livre. Les chercheurs de la Vesuvius Challenge ont lu, écrit en plein milieu d'un papyrus carbonisé, la mention "Sur les vices, livre 1", un traité de philosophie grecque signé Philodème, un penseur épicurien actif au Ier siècle avant notre ère, dont le rouleau était resté soudé sur lui-même depuis l'éruption du Vésuve en l'an 79.

Ce rouleau, baptisé PHerc. 1667, vient d'être déchiffré d'un bout à l'autre. C'est le premier lu en entier.

Pour comprendre l'exploit, il faut imaginer l'état de ces documents : retrouvés en 1752 dans une luxueuse villa d'Herculanum, probablement celle du beau-père de Jules César, les quelque 1 800 rouleaux ont été changés en bâtons de charbon par la chaleur de l'éruption, au point que les dérouler à la main revient encore aujourd'hui à les réduire en miettes.

D'où l'idée, mise au point en vingt ans par Brent Seales, informaticien à l'université du Kentucky, de ne jamais y toucher. On glisse le rouleau dans un accélérateur de particules qui en réalise un scanner à rayons X d'une finesse extrême, on reconstitue en 3D chacune des couches enroulées à l'intérieur, puis on les déplie virtuellement à l'écran comme on aplatirait une viennoiserie feuilletée sans la déchirer.

Restait le pire. L'encre de l'époque est faite de carbone, exactement comme le papyrus brûlé qui la porte, donc elle est quasiment invisible sur les scans, et c'est là qu'intervient une IA entraînée à repérer les infimes différences de texture laissées par les lettres pour redessiner peu à peu un texte que l'œil humain ne voit pas.

Le résultat est franchement fort, avec 70 nouvelles colonnes de texte exhumées et, sur un autre rouleau, la mention "Philodème, Sur les dieux, livre 8" qui révèle aux historiens que cet ouvrage comptait plusieurs tomes, ce que personne ne soupçonnait jusqu'ici.

Et pour les spécialistes de l'Antiquité, ça compte vraiment, parce que la bibliothèque carbonisée d'Herculanum est la seule de tout le monde gréco-romain à nous être parvenue à peu près complète, et non en fragments recopiés au Moyen Âge par des moines.

Honnêtement, lire 2 000 caractères tracés par un Romain juste avant que tout brûle, ça vaut largement tous les chatbots qui écrivent des e-mails à votre place.

Source : The Register , Scrollprize

EQ-Bench - Le benchmark de l'intelligence émotionnelle des IA

Par : Korben ✨
19 juin 2026 à 10:01

Sam Paech s'est rendu compte qu'on testait toujours les IA sur le code, les maths, et à qui battra un prochain record , mais presque jamais sur leur capacité à comprendre les émotions humaines ou à pondre un texte qui ne sente pas le slop de bot à plein nez. Et c'est pour ça qu'il a monté EQ-Bench , un benchmark qui note l**'intelligence émotionnelle des grands modèles de langage**.

Pour alimenter son benchmark, il colle tout un tas de modèles dans des jeux de rôle un peu tordus (45 scénarios dans sa dernière version) et c'est un autre modèle (Claude, en l'occurrence) qui joue l'examinateur. Il note alors chaque réponse sur huit dimensions, telles que l'empathie, la finesse sociale ou la capacité à poser une limite quand il faut, puis nous sort un classement façon Elo (le classement des échecs). Tout est open source, documenté dans un papier de recherche et Paech finance ce bazar avec ses propres deniers.

Et depuis 2023, c'est devenu une véritable collection de tests...

Y'a un test d'écriture créative, un autre qui regarde si le modèle vous cire les pompes au lieu de vous recadrer quand la conversation s'éternise, un sur l'humour, et même un où les IA jouent à Diplomacy pour voir lesquelles savent négocier et bluffer.

Mais mon préféré c'est le Slop Score, qui mesure à quel point un texte pue l'IA. Pour cela, il traque les mots sur-utilisés et le fameux tic du "pas X, mais Y". Bref, de quoi objectiver (un peu) ce qui rend la moitié du web illisible ces temps-ci.

Paech prévient quand même que son "juge" reste quelque chose de totalement subjectif et qu'il n'existe aucune vérité absolue sur l'intelligence émotionnelle. C'est donc plutôt à lire comme une boussole et pas comme un verdict gravé dans le marbre (ou le silicium ^^).

Toutefois, pour savoir si un modèle écrit comme un humain plutôt que comme un employé d'agence de branding, c'est plutôt pratique. Et je vous conseille d'aller fouiller un peu dans les classements, comme ça vous verrez que le meilleur en code n'est pas forcement le plus futé côté émotions...

Bref, vivement le retour de Fable 5 ^^

Un bug qui gèle l'écran des portables AMD sous Linux traîne depuis 2017, et c'est Claude qui a aidé à le corriger

19 juin 2026 à 09:47

Si vous utilisez un ordinateur portable à puce graphique AMD Radeon sous Linux, vous avez peut-être déjà vu l'écran se figer d'un coup, sans raison apparente, à peu près une fois par semaine. Ce bug agace les utilisateurs depuis des années, et un correctif vient enfin de pointer le bout de son nez.

Le coupable se cache dans AMDGPU, le pilote graphique libre qu'AMD maintient pour Linux. On parle ici du logiciel qui fait le lien entre la carte graphique et le système d'exploitation.

Le problème ne date pas d'hier. En fouillant l'historique du code, le développeur à l'origine du correctif a remonté la piste jusqu'à une modification introduite en 2017. Presque huit ans de gels d'écran.

Le symptôme typique, c'est une erreur "flip_done timed out" dans les journaux du système. Pour faire simple, l'ordinateur attend que l'écran affiche l'image suivante, ce signal n'arrive jamais. Et tout gèle.

Le souci touche plusieurs machines, bien connues du monde Linux, comme le Lenovo ThinkPad T14 Gen1 en version AMD ou le Framework Laptop 13 équipé d'un processeur Ryzen 7 7840U. Jusqu'ici, le seul remède consistait à désactiver le PSR, pour "Panel Self Refresh".

Cette fonction d'économie d'énergie laisse l'écran réafficher tout seul sa dernière image fixe sans réveiller la carte graphique, histoire d'économiser de la batterie. Pratique sur un portable, sauf que c'est précisément elle qui déclenchait les gels.

Le plus intéressant, c'est la méthode employée. Le correctif a été mis au point en "vibe debugging" avec Claude Code, l'assistant de programmation d'Anthropic, le concurrent direct d'OpenAI. Le développeur a décrit le bug à l'IA, qui l'a aidé à explorer le code et à affiner les correctifs, plutôt que de dérouler une procédure de débogage classique.

Concrètement, les patchs revoient la gestion du "vblank" et du "page-flip" dans le bloc d'affichage DCN, c'est-à-dire la mécanique interne qui synchronise le moment où une nouvelle image remplace l'ancienne à l'écran. D'autres tentatives avaient échoué par le passé, mais cette série semble enfin tenir la route.

Maintenant patience, rien n'est encore intégré dans le noyau Linux officiel. Les correctifs doivent passer par les tests et la validation des mainteneurs avant d'arriver chez tout le monde, ce qui peut quand même prendre plusieurs versions du kernel.

Bref, on est là devant un bug fantôme qui date d'lil y a huit ans, débusqué en discutant avec une IA, voilà qui résume assez bien l'année 2026 côté développement.

Source : Phoronix

Linux tire un trait sur AppleTalk

18 juin 2026 à 10:12

C'est la fin d'une époque. Le noyau Linux, le cœur du système qui pilote le matériel et les communications, s'apprête à supprimer le support d'AppleTalk, ce vieux protocole réseau qu'Apple utilisait dans les années 80 et 90 pour faire dialoguer ses Mac entre eux avant que TCP/IP, le langage commun d'internet, ne s'impose partout.

À l'époque, c'était plutôt malin: vous branchiez deux machines et une imprimante, et elles se trouvaient toutes seules, sans la moindre configuration, du plug-and-play avant l'heure à un moment où monter un réseau relevait encore du casse-tête réservé aux initiés.

Aujourd'hui, plus grand monde ne parle ce dialecte. Il en subsiste quelques traces dans Bonjour, la techno maison qui détecte automatiquement imprimantes et appareils sur un réseau local, mais le protocole d'origine, lui, est mort depuis longtemps.

Près de 4000 lignes de code vont donc disparaître avec la version 7.2 du noyau, et Apple avait lui-même enterré AppleTalk dès 2009, du temps de Mac OS X Snow Leopard. Autant dire que le préavis a été large.

Le plus étonnant, c'est ce qui a déclenché le grand ménage. Ce n'est pas vraiment l'abandon par les utilisateurs, mais une vague de correctifs générés par intelligence artificielle qui a fini par saturer la liste de diffusion des développeurs réseau.

Depuis quelques mois, des outils basés sur des grands modèles de langage, balancent automatiquement des "corrections" de bugs sur du code que personne n'avait réclamé, pour un protocole que plus aucun matériel ne fait tourner.

Et chaque proposition, même inutile, mobilise un humain qui doit la lire, la tester et vérifier qu'elle ne casse rien ailleurs, du temps précieux soustrait au vrai travail de mainteneurs déjà débordés par les contributions légitimes.

C'est Jakub Kicinski, qui supervise toute la pile réseau du noyau, qui a fini par trancher: plutôt que de faire éplucher par ses équipes des patchs pondus en série par des machines pour réparer une techno morte, il a préféré retirer AppleTalk d'un seul geste.

Et il n'en est pas à son coup d'essai. Au cycle précédent, pour Linux 7.1, il avait déjà passé à la trappe ARCnet, l'ISDN, la radio amateur et toute une collection de vieux pilotes réseau oubliés, soit près de 138 000 lignes effacées d'un coup, dans ce qu'il a lui-même baptisé la "LLM-pocalypse".

Le code d'AppleTalk ne finit quand même pas tout à fait à la poubelle, puisqu'il rejoint AX.25 et la radio amateur dans un dépôt GitHub mis de côté, pour les rares curieux qui voudraient encore bidouiller avec.

Bref, c'est une première: des contributions automatisées qui font retirer du code encore fonctionnel. L'IA ne crée pas toujours. Parfois, elle déblaie.

Source : Phoronix

Qwen-Robot Suite - Alibaba donne un corps à son IA

Par : Korben ✨
18 juin 2026 à 06:56

Voici une news concernant l'intelligence artificielle, qui je pense devrait vous plaire si vous vous intéressez à la robotique. Alibaba qu'on ne présente plus, vient de sortir sa Qwen-Robot Suite, 3 modèles IA signés Tongyi Lab (les gens derrière Qwen ) imaginé pour donner un corps à l'IA. Parce qu'une machine capable de décrire votre cuisine au millimètre près mais complétement infoutue d'y attraper une tasse, voilà un peu ce qu'on a en robotique en ce moment...

Car "comprendre" le monde, ça les modèles savent faire. Mais agir dedans, c'est une autre paire de manches. Cette Qwen-Robot Suite découpe donc ça en trois briques, RobotNav pour se déplacer, RobotManip pour saisir des objets, et RobotWorld qui joue les boules de cristal en prédisant ce qui va se passer avant même que le robot ne bouge. Et si vous voulez expérimenter tout ça tout de suite, sans mettre les mains dans le cambouis, y'a même une démo Chat2Robot , où vous tapez une instruction dans votre navigateur et un bras robotique l'exécute en direct !

Mais le plus parlant dans leurs démos, c'est ce chien-robot Unitree Go2 ( bourré de failles de sécu, qui balance toutes vos données en chine ) qui, une fois lâché chez vous avec sa seule petite caméra bas de gamme, peut se balader dans toute la maison pour vous rendre tout un tas de services. Sauf qu'ici il opère dans des lieux qu'il n'a jamais vus, en suivant vos consignes vocales de pièce en pièce, et il peut même refaire tout le trajet à l'envers sur commande. C'est en tout cas, assez cool de voir ces world models enfin capables d'apprendre à résoudre des problèmes auxquels il n'a encore jamais été confronté.

L'astuce, c'est d'entraîner un seul modèle sur les données de plein de robots différents d'un coup, au lieu de repartir de zéro pour chaque machine. Du coup un geste appris sur un bras X se transfère direct sur un autre bras Y, et chaque robot profite ainsi, en quelque sorte, de l'expérience accumulée par tous les congénères du lot. Et tout ça a été nourri avec plus de 38 000 heures de données, uniquement en l'open-source, dont des vidéos de gens filmés en train de faire des trucs, et adapté pour que la machine puisse apprendre en regardant faire des humains .

Et niveau perfs, ça tape fort apparemment !

Sur les benchmarks de manipulation, RobotManip passe devant π0.5, un modèle de Physical Intelligence dont je vous avais déjà parlé, avec quand même 7 points d'avance, sur un benchmark de manipulation standard. Il finit aussi premier sur RoboChallenge, le classement généraliste du secteur. Bon, ce sont des chiffres de labo bien sûr, mais le saut par rapport à la concurrence fait mal ^^.

Ce que Qwen veut faire surtout, c'est de tout passer par le langage naturel comme ça une commande de bras, un virage de voiture, un point de navigation et compagnie... tout devient une simple phrase. Cela permet aux modèles Qwen classiques d'appeler ces briques comme des outils, et de brancher l'intelligence artificielle classique (les LLMs) directement sur l'action physique (les World Model). La presse parle déjà d'un "moment Android" pour la robotique, autrement dit un cerveau logiciel que n'importe quel fabricant de bras ou de roues pourrait embarquer sans avoir à fabriquer la quincaillerie. Ce serait fou !

Après, Chat2Robot tourne sur 50 tâches seulement et n'est pas parfait. Le tout est en test pilote chez quelques clients d'Alibaba Cloud, donc c'est pas encore pour votre robot aspirateur... Mais si le concept de robot à la maison vous intéresse, c'est une approche intéressante je trouve. Entre Physical Intelligence, Gemini Robotics chez Google et GR00T chez NVIDIA, tout le monde semble chercher le même Graal, à savoir une IA généraliste capable de piloter n'importe quel corps mécanique. Bref, Alibaba ne vend pas de robot, mais le cerveau qui va dedans, et le fait que ce soit entièrement open-source et orienté langage me fait dire qu'on risque de voir plein de projets cools et surtout accessibles se monter autour de ça.

Source

GhostDesk - Un bureau Linux complet pour votre agent IA

Par : Korben ✨
27 mai 2026 à 08:49

GhostDesk , c'est un serveur MCP open source qui file à votre agent IA un bureau Linux complet tournant dans Docker. L'agent voit l'écran, clique, tape, lance des applis, comme un humain. Bref, c'est pas juste un browser à la Playwright, puisque grâce à lui, n'importe quelle interface graphique devient pilotable. Yoann Vanitou son créateur m'a pitché son projet par email, et comme j'ai trouvé ça cool, je vous emmène faire un petit tour du propriétaire.

Le principe c'est un conteneur Docker qui tourne avec un bureau Linux minimal, Firefox, un terminal, un éditeur de texte, une calculatrice, et un serveur MCP en frontal. Votre agent IA préféré se connecte alors sur http://localhost:3000/mcp, demande un screenshot, identifie ce qui est à l'écran, puis envoie des commandes souris et clavier via les douze outils exposés (click, drag, scroll, type, key press, copy/paste, launch app, etc.).

Et vous pouvez même regarder l'agent bosser en direct depuis votre navigateur sur le port 6080, via noVNC. C'est assez satisfaisant de voir l'IA cliquer toute seule dans Firefox, je dois bien le reconnaitre !

Là où Playwright et consorts sont coincés dans le browser, GhostDesk fonctionne ainsi sur n'importe quelle fenêtre. Un workflow automatisé qui mélange plusieurs applis , un ERP legacy, LibreOffice, un IDE, un client mail, peu importe.... Ça évite les bidouilles à base sélecteurs CSS ou code custom puisque l'agent interprète l'écran directement à partir des captures écran qu'il fait.

Et comme le serveur est pensé pour tourner avec des modèles locaux comme Qwen sur une workstation GPU, y'a vraiment aucune donnée qui sort de votre réseau et aucun coût API. Puis surtout, des cas d'usage sensibles (genre avec des données de santé, de la compta, du SI interne..etc) deviennent parfaitement envisageables. Claude et ChatGPT marchent aussi, mais avec les compromis habituels sur la latence et la confidentialité.

Pour tester, une seule commande Docker suffit :

docker run -d --shm-size 2g -p 3000:3000 -p 6080:6080 ghcr.io/yv17labs/ghostdesk:latest

Vous branchez ensuite votre client MCP sur localhost:3000/mcp, vous ouvrez localhost:6080 dans un onglet pour observer, et hop ! Pour la prod, y'a aussi un mode TLS plus bearer token qui chiffre le transport, parce qu'exposer un bureau Linux en clair sur le réseau, c'est pas l'idée du siècle, c'est vrai ^^.

Les applis pré-installées restent sobres, mais rien n'empêche de builder votre propre image avec d'autres logiciels.

Maintenant, le projet est très jeune et son développement repose quasi uniquement sur Yoann, donc je pense qu'il ne sera pas contre un petit coup de main. A voir avec lui.

Après côté licence, c'est une license non-concurrentielle qui interdit l'usage commercial rival pendant une période fixée avant bascule vers une licence ouverte classique.

Bref, GhostDesk c'est une idée sympa et je pense que si vous faites de l'automation d'applis desktop ou que vous voulez brancher un agent local sur un bureau virtuel sans payer d'API, ça mérite le coup d'œil !

Bravo à Yoann !

Pax Historia - Le jeu IA qui vous laisse réécrire l'Histoire

Par : Korben ✨
27 mai 2026 à 07:25

C'est mon plus jeune fils qui m'a fait découvrir ça un soir, et comme j'ai trouvé ça top, bah je vous en parle. C'est un jeu web nommé Pax Historia et ça a été créé par deux colocataires de fac, Eli Bullock-Papa et Ryan Zhang, sur un coin de table durant un hackathon. Et ce n'est ni plus ni moins qu'un bac à sable d'histoire alternative où c'est une IA qui fait vivre le monde autour de vous, un peu comme à son époque, " Un monde meilleur " de FibreTigre.

Dans Pax Historia, vous choisissez un pays et un moment de l'Histoire, et vous réécrivez toute la suite... Et quand je dis réécrire, c'est pas cliquer dans des menus déroulants, non non, là vous tapez en langage naturel ce que vous voulez faire, vous proposez une alliance au pays d'à côté, vous menacez, vous négociez un protectorat, vous déclarez une guerre... et l'IA en face vous répond comme le ferait une vraie chancellerie. Le moteur du jeu est donc carrément un grand modèle de langage (LLM) qui génère chaque réaction à la volée, ce qui ouvre un champ des possibles bien plus large qu'un jeu de stratégie classique.

Dans ce jeu, quand vous annoncez quelque chose, le monde change car les autres nations réagissent, les frontières bougent sur la carte, et de nouveaux foyers de tension apparaissent. Et le truc que j'adore, c'est que le ton de vos messages compte énormément.

Si vous arrivez avec des arguments construits et un minimum de diplomatie, vous réussirez à tisser des relations. Par contre, si vous balancez des menaces creuses comme quand vous êtes sur Twitter, vous transformez vos voisins en ennemis en moins de 2 tours. On est exactement entre le RISK et une vraie partie de Diplomacy, sauf que l'adversaire improvise et qu'il ne vous laisse jamais rejouer le même coup deux fois.

Screenshot

Pour démarrer, vous pouvez partir sur les temps modernes, ou la Seconde Guerre mondiale, parfaits pour se faire la main, mais il y a surtout les 4000 et quelques scénarios créés par la communauté. Ces derniers sont rangés en plusieurs familles, Historical pour les vraies dates de notre Histoire, Alt-Historical pour les uchronies, Historical Fiction pour les récits romancés, et Fantasy ou Science-Fiction pour les mondes complètement inventés sans aucun lien avec le réel (Genre Starwars). Moi, vu que j'adore réimaginer l'Histoire, je me suis rué sur l'Alt-Historical sans hésiter mais si rien ne vous convient, y'a aussi l'option "Play as anything" qui vous laisse incarner à peu près n'importe quoi, une cité-État imaginaire, une faction, ce que vous voulez.

Et autre truc cool, vous pouvez aussi avancer dans le temps... Vous faites défiler les années et le monde évolue à partir de vos dernières actions et comme ça vous pouvez voir cet effet papillon que vous avez initié.

Vous pouvez même fabriquer votre propre monde puisque le mode Create embarque un éditeur de carte où vous dessinez des régions, vous les attribuez à des pays, vous posez le contexte historique et les relations diplomatiques de départ.

Et c'est un vrai jeu de stratègie, parce qu'il faut anticiper plusieurs coups à l'avance. Vous pouvez choisir un niveau de difficulté qui va de Very Easy à Impossible, le mode Normal étant calé pour rester réaliste. Vous choisissez aussi la qualité de l'IA, parce que derrière, le jeu fait tourner une trentaine de modèles différents via OpenRouter, des trucs d'OpenAI, d'Anthropic, de Google, et des modèles open source. Attention par contre, plus le modèle est costaud, plus il bouffe des tokens, donc sauf si vous aimez tomber en rade en plein milieu d'une guerre et être obligé de sortir la CB pour en racheter, démarrez avec les options les moins chères.

Et surtout, comme l'arme principale dans Pax Historia, c'est votre façon de formuler les choses, votre victoire dépend en grande partie de votre talent à argumenter. C'est du prompt engineering déguisé en grand jeu de stratégie, et je trouve que ça rejoint pas mal ce genre d'histoires où des modèles apprennent l'art de la persuasion . Le revers de la médaille, c'est que l'IA est encore beaucoup trop malléable du coup avec la bonne tournure de phrase, vous pouvez la convaincre de presque tout, un peu comme cette IA qu'on a baratinée pour lui faire lâcher 47 000 dollars .

Bref, si comme moi vous aimez triturer l'Histoire et réfléchir trois coups à l'avance, allez tester Pax Historia . C'est encore en alpha, mais j'ai trouvé l'idée brillante.

Le firmware Linux manquant des laptops HP Panther Lake vient enfin d'arriver

26 mai 2026 à 15:50

Si vous venez d'acheter un portable HP équipé d'un Intel Core Ultra Series 3 (nom de code Panther Lake) et que vous y faites tourner Linux, vous allez accueillir cette nouvelle avec une certaine satisfaction. Intel et HP ont enfin poussé le firmware nécessaire à l'activation du fameux Integrated Sensor Hub dans linux-firmware.git, le dépôt officiel utilisé par à peu près toutes les distributions Linux du marché.

Petite mise en contexte quand même... Vous le savez, le firmware, c'est le tout petit logiciel bas niveau qui permet à un composant matériel de fonctionner. Et l'Integrated Sensor Hub (l'ISH pour les intimes), c'est un co-processeur intégré dans les puces Intel récentes.

Son job est de gérer les capteurs du laptop (orientation de l'écran, accéléromètre, gyroscope, capteurs de lumière, etc.) sans déranger les gros cœurs du CPU principal. Ça permet en fait à la machine de capter ce qu'il se passe autour d'elle même quand elle est en veille, sans vider la batterie.

Le problème, c'est que ce petit co-processeur a besoin d'un firmware spécifique pour fonctionner. Et sans ce firmware, l'ISH était muet sur Linux. Résultat : des fonctions comme la rotation automatique de l'écran sur un PC convertible, l'allumage à la détection de présence ou les économies d'énergie liées aux capteurs ne fonctionnent tout simplement pas, ou alors franchement mal.

Le pilote était déjà dans le noyau Linux depuis longtemps. C'est la pièce manquante, le firmware lui-même, qui était à la bourre. Sans lui, il faut bidouiller, copier des fichiers à la main depuis Windows, ou faire une croix sur certaines fonctions. C'est le genre de situation qui fait fuir les utilisateurs vers Windows ou macOS sur du matos neuf.

De la part d'HP, c'est plutôt un bon rattrapage. Le constructeur historique pousse régulièrement des laptops pré-installés avec Linux à destination des développeurs et des entreprises (la gamme ZBook sous Ubuntu, par exemple, qui existe depuis quelques années). Avoir un bon support dès la sortie du carton, ça compte vraiment pour ce public-là, qui ne veut pas passer une heure à chasser les firmwares disparus pour faire marcher son trackpad ou son lecteur d'empreintes.

Intel, de son côté, a fait pas mal d'efforts ces derniers temps pour simplifier sa licence de firmware et accélérer la mise à dispo de ces fichiers binaires pour Linux. On a d'ailleurs vu la même histoire avec le firmware NPU (la puce dédiée à l'intelligence artificielle) qui a été publié juste avant pour Panther Lake.

Bref, pour qui voulait passer à un laptop HP Panther Lake sous Linux dès maintenant, le timing est devenu nettement meilleur.

Source : Phoronix

Heretic - Virer la censure d'une IA en une commande

Par : Korben ✨
26 mai 2026 à 08:08

Y'a des entreprises qui claquent des millions pour bien aligner leurs modèles d'IA afin qu'ils refusent toutes les questions sensibles qui font flipper nos amis puritains d'outre-Atlantique et y'a Heretic , un outil signé Philipp Emanuel Weidmann, qui balaye toute censure sur n'importe quel modèle en moins de 30 minutes avec une simple carte graphique de gamer.

Je vous explique... Vous devez avoir Python et une version récente de PyTorch sur votre machine, puis vous tapez pip install heretic-llm, puis heretic Qwen/Qwen3-4B-Instruct-2507 avec le nom du modèle que vous voulez décensurer.

Et l'outil fait alors sa vie et 20 à 30 minutes plus tard, vous récupérez une version du modèle qui a lâché prise sur l'essentiel de ses refus. Pas de dataset à préparer et surtout pas besoin de comprendre les entrailles d'un transformer, avec ce truc !

Dans un modèle aligné, le réflexe de refuser (le fameux "désolé, je ne peux pas vous aider avec ça") correspond souvent à une direction précise dans ses calculs internes. Les chercheurs appellent ça la "direction de refus". Et l'idée de l'abliteration, c'est de repérer cette direction et de la gommer des poids du modèle. En gros, on coupe le câble qui déclenche le "non", en touchant le moins possible au reste.

D'autres outils d'abliteration existaient déjà , mais leur réglage restait largement manuel et il y a aussi des gens comme mlabonne ou huihui-ai qui publient des modèles décensurés en ajustant les paramètres à la main, modèle par modèle, avec des résultats souvent inégaux. Mais Heretic, lui, automatise complètement le réglage. Pour cela, il s'appuie sur Optuna, un framework d'optimisation qui teste des dizaines de configurations et garde les meilleures tout seul. Et son seul objectif c'est de virer un max de refus tout en abîmant le moins possible le modèle d'origine.

Et de ce que je comprends, ça marche super bien ! Sur Gemma-3-12B, le modèle de Google de base refuse 97 fois sur 100 les prompts sensibles du benchmark maison. Mais après un petit passage dans Heretic, il tombe à 3 refus sur 100, soit le même niveau que les meilleures "nettoyages" manuels.

Et surtout, Heretic affiche une divergence de 0,16 là où les versions faites main grimpent à 0,45 voire 1,04 (C'est une mesure de l'écart de comportement sur les questions normales... plus c'est bas, mieux c'est).

Cela veut donc dire qu'il abîme beaucoup moins le modèle au passage.

Maintenant, tous les modèles n'y passent pas, car un gros calibre demande bien plus de VRAM et cela peut grimper à plusieurs heures. De plus, une étude comparative récente montre que le raisonnement mathématique est ce qui souffre le plus de ce genre d'abliteration, quel que soit l'outil utilisé.

Et surtout, y'a déjà des chercheurs qui bossent sur des défenses pour rendre les modèles résistants à ce genre d'attaque. Donc on verra bien, mais tant que c'est possible autant en profiter car des modèles sans bridage, ça permet notamment à des chercheurs d'étudier leurs propres failles, ou pour des usages du quotidien, de faire passer des demandes banales qui seraient bloquées (genre texte créatif, reverse engineering ou demande de conseils médicaux, ce genre de choses...)

Voilà, si vous bidouillez du LLM en local , allez voir ce projet car ça peut vous "ouvrir" quelques portes ^^.

Google neutralise la première cyber-attaque massive générée par une IA

12 mai 2026 à 13:49

Google a balancé l'info via son équipe cyberdéfense, le GTIG (Google Threat Intelligence Group). Des cybercriminels ont utilisé une IA générative pour dénicher et écrire un code d'attaque exploitant une faille inconnue (ce qu'on appelle un zero-day, une vulnérabilité que l'éditeur du logiciel n'a pas encore corrigée).

Et ils s'apprêtaient à lancer une vague d'attaques massives. C'est, d'après Google, la première fois qu'on observe ça dans la vraie vie, pas en labo.

La faille concernait un outil d'administration de serveur open-source très utilisé, dont Google ne donne pas le nom (le temps que tout le monde installe le correctif).

Le bug permettait de contourner la double authentification, le fameux code à 6 chiffres ou la notification sur le téléphone qui sécurise vos comptes. En pratique, il fallait quand même un identifiant et un mot de passe valides au départ, donc ce n'est pas une attaque magique en un clic. Mais une fois ce sas franchi, la 2FA tombait toute seule.

Ce qui a mis la puce à l'oreille des chercheurs, c'est l'allure du script Python utilisé pour exploiter la faille. Trop bien écrit, trop documenté, trop scolaire en fait.

Il était bourré de commentaires pédagogiques (le genre qu'on retrouve dans un tuto pour débutant), il affichait un menu d'aide impeccable, et surtout un score de dangerosité CVSS complètement inventé. Cette dernière trouvaille, c'est l'indice qui ne trompe pas, seul un modèle de langage peut halluciner un chiffre officiel avec autant d'aplomb.

John Hultquist, le chef analyste du GTIG, explique que les IA génératives sont vraiment douées pour repérer ce genre de faille logique de haut niveau, là où les outils d'audit classique (les "fuzzers" qui bombardent un logiciel de données aléatoires pour le faire planter) passent à côté.

Google précise au passage que ce n'est pas Gemini, son propre modèle d'IA, qui a été utilisé. Lequel alors ? Mystère, l'équipe de Mountain View ne le dit pas. On imagine que les criminels n'ont pas demandé poliment l'autorisation à un éditeur d'IA. Affaire à suivre.

Le rapport donne d'autres pépites. Le groupe nord-coréen APT45 utiliserait l'IA pour tester des milliers d'exploits en masse. Des opérateurs chinois liés à l'État expérimenteraient l'IA pour chasser les vulnérabilités.

Des backdoors (des portes dérobées cachées) sur Android interrogent directement Gemini pour piloter les téléphones infectés. Et côté désinformation, des opérations russes intègrent du faux audio généré par IA dans de vraies images d'actualités. Bref, ça bouge de partout.

Bonne nouvelle quand même, la campagne d'attaque massive a été désamorcée. Google a coordonné un correctif discret avec l'éditeur avant que les criminels puissent appuyer sur le bouton. Cette fois.

Bref, l'IA fabrique maintenant des armes prêtes à l'emploi pour les criminels, et personne ne sait quel modèle a fait le boulot. Rien de rassurant donc.

Source : The Hacker News

Taggez vos photos avec de l'IA en local

Par : Korben ✨
12 mai 2026 à 08:08

Tagger des milliers de photos à la main, c'est le genre de corvée qu'on remet tous à plus tard depuis des années. Mais c'était sans compter sur photo-folder-tagger de Laurent Voillot qui règle ça grâce à 6 modes IA spécialisés, le tout en local, sans envoyer une seule image dans le cloud.

Vous faites pointer l'outil sur un dossier, vous choisissez le mode IA correspondant à vos photos, et hop, des fichiers XMP annexes sont générés à côté de chaque cliché. Ces fichiers contiennent les tags et sont directement lisibles par Lightroom Classic, Capture One, Bridge, Darktable et DigiKam, ce qui évite d'avoir à ré-importer ou à modifier les originaux !

Les 6 modes couvrent des usages bien distincts. Le mode Balade utilise CLIP SigLIP2 pour la classification générale (~50 ms par photo). Le mode Animaux combine BioCLIP v1 + CLIP (~40 ms). Pour les oiseaux et les insectes, c'est BioCLIP 2, entraîné sur 214 millions d'images de biodiversité (TreeOfLife-200M), à ~55 ms par image. Le mode Vacances sort la grosse artillerie avec Ollama et qwen2.5vl pour générer des descriptions en langage naturel (~1.8 s par photo).

Et le mode qui mérite une mention spéciale c'est Astro capable d'identifier automatiquement les objets célestes : Galaxies, nébuleuses, amas d'étoiles... les tags XMP pointent alors vers les références Messier, NGC ou IC correspondantes. C'est assez dingue comme feature.

En tout cas, c'est plus précis d'avoir tous ces petits modèles spécialisés plutôt que d'avoir un seul modèle qui fait tout. BioCLIP 2 sur la faune donne par exemple des résultats qu'un modèle généraliste n'atteindra pas.

L'installation se fait après récupération des sources via pip install -r requirements.txt. Tout est configurable dans config.yaml, les modèles IA utilisés, la langue des tags, les seuils de confiance...etc puis ça se lance avec python photo_folder_tagger.py. Au passage, n'oubliez pas que si vos photos sont un peu floues avant de lancer le tagger, SuperImage peut les upscaler en amont.

Bref, si vous avez des disques entiers de photos nature, astro ou de rando qui traînent sans tags depuis des années, c'est l'outil qu'il vous faut.

Merci à Laurent Voillot.

Spotify génère maintenant vos podcasts tout seul

Par : Korben ✨
11 mai 2026 à 08:48

Spotify vient d'annoncer un truc intéressant je trouve, qui s'appelle les Personal Podcasts. Le principe c'est de demander absolument tout ce que vous voulez, par exemple un podcast sur un cours que vous venez de suivre, sur un bouquin, sur un article de Korben.info voire sur votre planning de la semaine, vos objectifs...etc etc... Peu importe... Spotify prend tout ça, et génère un épisode audio personnalisé raconté par une voix IA plus ou moins moche.

Et l'épisode apparaît alors directement dans votre bibliothèque, comme si quelqu'un avait fait un résumé audio de votre semaine.

Et pour faire ça, ils ont mis en ligne un repo GitHub save-to-spotify qui est un outil en ligne de commande permettant à des agents IA de créer ce podcast personnalisé tout ça accessible en ligne de commande ou via des agents comme Claude Code, OpenClaw ou Codex.

Que ce soit sous macOS ou Linux, ça s'installe en une ligne (allez lire le install.sh par sécurité quand même avant de l'exécuter) :

curl -fsSL https://saveto.spotify.com/install.sh | bash

Et si vous êtes sous Claude Code, c'est encore plus immédiat :

/plugin marketplace add spotify/save-to-spotify

Le skill se retrouve dans ~/.claude/skills/save-to-spotify/ et votre agent peut demander à Spotify de générer un podcast à la demande pour ensuite le pousser sur Spotify.

Rien de compliqué en fait !

Par contre, le podcast créé est 100% privé, donc vous ne pourrez pas le partager avec vos amis. Mais c'est pas bloquant non plus puisqu'il est toujours possible d'aller récupérer dans les dossiers temporaires de génération de l'émission les MP3 que ça vous crache pour ensuite les mettre ailleurs, soit sur votre site, soit les diffuser sur votre vrai podcast Spotify accessible à tous.

Maintenant, est-ce que je vais faire mon podcast pour raconter les actus que je mets sur ce site ?

Alors j'ai pas le temps mais je le ferai peut-être un jour si la qualité audio de l'IA est suffisante pour que ça ait l'air vraiment produit par un humain et pas par une machine. Pour vous donner une idée, voici ce que ça donne :

Donc c'est pas encore qualitatif... À voir en passant par des moteurs TTS comme ceux d'ElevenLabs... mais pour l'instant, c'est pas d'actualité pour moi. On verra bien... Je me suis quand même amusé à mettre les fichiers texte et JSON produits dans Notebook LM pour faire un autre type de podcast qui cette fois est un peu plus long et plus quali... Je vous mets ici.

Après, peu importe que vous le génériez via l'outil de Spotify ou autrement en passant par un autre outil, le CLI Save To Spotify, vous permettra ensuite de le mettre sur votre compte Spotify pour l'écouter par exemple dans la voiture ou dans les transports.

Bref, c'est disponible et si vous avez Claude Code sous la main, ça prend une ligne à installer. L'annonce complète est par ici .

Google Workspace CLI - Pour piloter tous les services Google avec votre IA

Par : Korben ✨
8 mai 2026 à 16:52

Justin Poehnelt, Senior Developer Relations Engineer chez Google, vient de balancer sur Github un outil en ligne de commande (CLI), codé en Rust qui permet de faire un truc trop pratique, à savoir piloter entièrement Workspace depuis le terminal. Ce logiciel nommé GWS est donc capable de gérer Gmail, Drive, Calendar, Sheets et sept autres services Google d'un coup. Et en plus, comme il a été conçu pour les agents IA, donc c'est pas juste pour vous et votre terminal !

Une fois installé via npm, cargo, brew ou un binaire pré-compilé, vous tapez gws auth login pour vous authentifier via OAuth et vous pouvez ensuite attaquer onze services depuis votre shell : Drive, Gmail, Calendar, Sheets, Docs, Chat, Admin, Apps Script, Tasks, Workspace Events et Model Armor.

Niveau archi, au lieu de hard-coder chaque commande dans le binaire, gws interroge tout simplement le Discovery Service de Google au démarrage et reconstruit son arbre de commandes à la volée. Du coup quand Google ajoute un endpoint à l'API Sheets, le CLI le voit apparaître tout seul. C'est trop bien parce que ça évite de devoir attendre une release pour utiliser un éventuel nouveau service de Google. Et pour un agent IA qui re-fetch le schéma à chaque run, c'est plutôt une bonne idée.

Donc en plus de démarrer en moins d'une seconde, GWS crache des sorties en JSON structurées, y'a un mode --dry-run qui montre la requête sans l'envoyer, et de l'auto-pagination via --page-all. Et côté commandes utilitaires, vous avez aussi les + qui sont des helpers cousus main tels que gws gmail +send, gws drive +upload, gws calendar +agenda, gws sheets +append, gws gmail +triage et un gws gmail +standup-report qui résume vos mails de la semaine en quelques lignes.

Le repo embarque aussi 40+ skills d'agent prêts à l'emploi du type "résume mes mails non lus" ou "génère mon rapport", une extension Gemini CLI qui s'installe avec gemini extensions install https://github.com/googleworkspace/cli, et le helper +sanitize-response qui fait passer la sortie par Model Armor (le filtre anti-prompt-injection de Google Cloud) pour éviter les réponses bizarres.

En gros, c'est un outil pensé pour faire piloter votre Workspace par Claude, Gemini ou n'importe quel agent. Comme ça vous allez pouvoir écrire un workflow qui lit vos mails non lus, en fait un résumé, le poste dans un Chat et classe tout ça proprement dans Drive... sans avoir à toucher à la souris ni avoir à utiliser votre cerveau léthargique. Elle est pas belle la vie ?

Sauf que. Le projet porte le disclaimer "This is not an officially supported Google product", et un employé Google a confirmé sur le thread Hacker News (presque 1000 points, quand même) que c'est un projet DevRel. Comprendre : pas de SLA, pas de roadmap garantie, pas d'équipe SRE qui veille au grain. Vous savez comment ça finit chez Google avec ce genre de statut !

Bref si vous êtes chaud pour tester, le binaire est dispo ici . Maintenant reste à voir si Google lui donnera un statut officiel ou si GWS s'éteindra discrètement comme tant d'autres projets internes oubliés...

Chrome installe en douce un modèle IA de 4 Go sur votre disque sans rien demander

6 mai 2026 à 10:09

Alexander Hanff, consultant, a remonté un truc pas net sur Chrome. La dernière version du navigateur télécharge en arrière-plan un modèle de langage local appelé Gemini Nano, qui pèse environ 4 Go, sans jamais demander la moindre permission à l'utilisateur.

Le fichier s'appelle weights.bin, il atterrit dans un dossier OptGuideOnDeviceModel quelque part dans votre profil Chrome, et il sert ensuite à des fonctions du genre "Help me write" ou détection de fraude.

Hanff a documenté l'opération via les logs système de son macOS. Le 24 avril 2026 vers 16h38, Chrome crée le dossier. Quelques minutes plus tard, il télécharge et décompresse les 4 Go (l'opération prend une quinzaine de minutes), puis il les déplace à l'emplacement final. Tout ça pendant que vous ne touchez rien à votre machine. Si vous supprimez le fichier à la main, il sera réinstallé silencieusement au prochain lancement du navigateur.

Hanff estime entre 100 millions et 1 milliard de machines concernées dans le monde. Multipliez 4 Go par 1 milliard et vous obtenez de quoi remplir une bonne partie d'un datacenter.

L'auteur calcule également l'impact carbone du déploiement, entre 6 000 et 60 000 tonnes de CO2e rien que pour le réseau, sans compter l'empreinte SSD. Pour un fichier que personne ne vous a demandé d'installer.

Sur le plan légal, Hanff parle d'une "violation directe" de l'article 5(3) de la directive ePrivacy européenne, qui interdit de stocker quoi que ce soit sur l'appareil d'un utilisateur sans consentement explicite. Il évoque aussi un manquement RGPD. Si la qualification tient, ça serait une amende salée pour Google, sachant que les Cnil européennes ont déjà sanctionné Meta et Microsoft pour des choses bien moins foireuses.

Pour s'en débarrasser, trois options : aller dans chrome://flags pour désactiver les fonctions IA, passer par les politiques d'entreprise si vous gérez un parc de machines, ou virer Chrome, tout simplement.

Bref, Google qui pousse 4 Go d'IA en silence sur des centaines de millions de machines, c'est un sale moche.

Source : That Privacy Guy

Un C-3PO grandeur nature transformé en assistant vocal qui répond pour de vrai

3 mai 2026 à 08:20

Un maker a transformé une réplique grandeur nature de C-3PO en assistant vocal interactif, et le résultat est franchement convaincant. Sa version du droïde papote, répond à vos questions, et tient même une conversation, le tout sans dépendre du moindre cloud une fois en local.

Le truc tient sur un Raspberry Pi 5 planqué dans la coque dorée du droïde. Un micro capte ce que vous racontez, un moteur de speech-to-text le transcrit, et un LLM local s'occupe de comprendre votre question pour formuler une réponse. Jusque là, rien de fou c'est même devenu même assez classique.

Le truc rigolo, c'est la couche par dessus. L'auteur a ajouté un prompt système qui force le LLM à répondre comme C-3PO le ferait : un peu anxieux, très formel, avec ce ton un brin pompeux qu'on connaît tous. Du coup, quand vous lui demandez bêtement la météo, vous pouvez vous prendre une réponse genre "Oh dear, je crains que les conditions atmosphériques ne soient guère favorables à un déplacement humain". Très C-3PO.

Pour la voix, le projet utilise un modèle synthétique entraîné sur les dialogues d'Anthony Daniels, l'acteur original. Le son passe ensuite par une chaîne d'effets audio qui ajoute la résonance métallique et le léger souffle qu'on entend dans les films. Le résultat n'est pas parfait, mais ça reste franchement bluffant pour un projet bricolé à la maison.

Tout le code est dispo en open source, ce qui veut dire que vous pouvez théoriquement le reproduire chez vous, à condition d'avoir une réplique C-3PO sous la main. Ce qui n'est pas le plus simple. Pour les budgets plus modestes, l'auteur précise que le pipeline tourne aussi très bien dans une simple enceinte connectée custom, le côté droïde doré n'étant pas indispensable au fonctionnement.

Le seul vrai bémol, c'est la latence. Entre le moment où vous parlez et la réponse vocale, comptez quelques secondes, ce qui casse un peu l'illusion d'avoir affaire à un assistant réactif. Mais bon, le vrai C-3PO du film mettait aussi trois plombes à comprendre les ordres, donc on peut presque considérer ça comme un détail de fidélité au personnage.

Source : Hackaday

❌
❌