Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

GhostDesk - Un bureau Linux complet pour votre agent IA

Par : Korben ✨
27 mai 2026 à 08:49

GhostDesk , c'est un serveur MCP open source qui file à votre agent IA un bureau Linux complet tournant dans Docker. L'agent voit l'écran, clique, tape, lance des applis, comme un humain. Bref, c'est pas juste un browser à la Playwright, puisque grâce à lui, n'importe quelle interface graphique devient pilotable. Yoann Vanitou son créateur m'a pitché son projet par email, et comme j'ai trouvé ça cool, je vous emmène faire un petit tour du propriétaire.

Le principe c'est un conteneur Docker qui tourne avec un bureau Linux minimal, Firefox, un terminal, un éditeur de texte, une calculatrice, et un serveur MCP en frontal. Votre agent IA préféré se connecte alors sur http://localhost:3000/mcp, demande un screenshot, identifie ce qui est à l'écran, puis envoie des commandes souris et clavier via les douze outils exposés (click, drag, scroll, type, key press, copy/paste, launch app, etc.).

Et vous pouvez même regarder l'agent bosser en direct depuis votre navigateur sur le port 6080, via noVNC. C'est assez satisfaisant de voir l'IA cliquer toute seule dans Firefox, je dois bien le reconnaitre !

Là où Playwright et consorts sont coincés dans le browser, GhostDesk fonctionne ainsi sur n'importe quelle fenêtre. Un workflow automatisé qui mélange plusieurs applis , un ERP legacy, LibreOffice, un IDE, un client mail, peu importe.... Ça évite les bidouilles à base sélecteurs CSS ou code custom puisque l'agent interprète l'écran directement à partir des captures écran qu'il fait.

Et comme le serveur est pensé pour tourner avec des modèles locaux comme Qwen sur une workstation GPU, y'a vraiment aucune donnée qui sort de votre réseau et aucun coût API. Puis surtout, des cas d'usage sensibles (genre avec des données de santé, de la compta, du SI interne..etc) deviennent parfaitement envisageables. Claude et ChatGPT marchent aussi, mais avec les compromis habituels sur la latence et la confidentialité.

Pour tester, une seule commande Docker suffit :

docker run -d --shm-size 2g -p 3000:3000 -p 6080:6080 ghcr.io/yv17labs/ghostdesk:latest

Vous branchez ensuite votre client MCP sur localhost:3000/mcp, vous ouvrez localhost:6080 dans un onglet pour observer, et hop ! Pour la prod, y'a aussi un mode TLS plus bearer token qui chiffre le transport, parce qu'exposer un bureau Linux en clair sur le réseau, c'est pas l'idée du siècle, c'est vrai ^^.

Les applis pré-installées restent sobres, mais rien n'empêche de builder votre propre image avec d'autres logiciels.

Maintenant, le projet est très jeune et son développement repose quasi uniquement sur Yoann, donc je pense qu'il ne sera pas contre un petit coup de main. A voir avec lui.

Après côté licence, c'est une license non-concurrentielle qui interdit l'usage commercial rival pendant une période fixée avant bascule vers une licence ouverte classique.

Bref, GhostDesk c'est une idée sympa et je pense que si vous faites de l'automation d'applis desktop ou que vous voulez brancher un agent local sur un bureau virtuel sans payer d'API, ça mérite le coup d'œil !

Bravo à Yoann !

Pax Historia - Le jeu IA qui vous laisse réécrire l'Histoire

Par : Korben ✨
27 mai 2026 à 07:25

C'est mon plus jeune fils qui m'a fait découvrir ça un soir, et comme j'ai trouvé ça top, bah je vous en parle. C'est un jeu web nommé Pax Historia et ça a été créé par deux colocataires de fac, Eli Bullock-Papa et Ryan Zhang, sur un coin de table durant un hackathon. Et ce n'est ni plus ni moins qu'un bac à sable d'histoire alternative où c'est une IA qui fait vivre le monde autour de vous, un peu comme à son époque, " Un monde meilleur " de FibreTigre.

Dans Pax Historia, vous choisissez un pays et un moment de l'Histoire, et vous réécrivez toute la suite... Et quand je dis réécrire, c'est pas cliquer dans des menus déroulants, non non, là vous tapez en langage naturel ce que vous voulez faire, vous proposez une alliance au pays d'à côté, vous menacez, vous négociez un protectorat, vous déclarez une guerre... et l'IA en face vous répond comme le ferait une vraie chancellerie. Le moteur du jeu est donc carrément un grand modèle de langage (LLM) qui génère chaque réaction à la volée, ce qui ouvre un champ des possibles bien plus large qu'un jeu de stratégie classique.

Dans ce jeu, quand vous annoncez quelque chose, le monde change car les autres nations réagissent, les frontières bougent sur la carte, et de nouveaux foyers de tension apparaissent. Et le truc que j'adore, c'est que le ton de vos messages compte énormément.

Si vous arrivez avec des arguments construits et un minimum de diplomatie, vous réussirez à tisser des relations. Par contre, si vous balancez des menaces creuses comme quand vous êtes sur Twitter, vous transformez vos voisins en ennemis en moins de 2 tours. On est exactement entre le RISK et une vraie partie de Diplomacy, sauf que l'adversaire improvise et qu'il ne vous laisse jamais rejouer le même coup deux fois.

Screenshot

Pour démarrer, vous pouvez partir sur les temps modernes, ou la Seconde Guerre mondiale, parfaits pour se faire la main, mais il y a surtout les 4000 et quelques scénarios créés par la communauté. Ces derniers sont rangés en plusieurs familles, Historical pour les vraies dates de notre Histoire, Alt-Historical pour les uchronies, Historical Fiction pour les récits romancés, et Fantasy ou Science-Fiction pour les mondes complètement inventés sans aucun lien avec le réel (Genre Starwars). Moi, vu que j'adore réimaginer l'Histoire, je me suis rué sur l'Alt-Historical sans hésiter mais si rien ne vous convient, y'a aussi l'option "Play as anything" qui vous laisse incarner à peu près n'importe quoi, une cité-État imaginaire, une faction, ce que vous voulez.

Et autre truc cool, vous pouvez aussi avancer dans le temps... Vous faites défiler les années et le monde évolue à partir de vos dernières actions et comme ça vous pouvez voir cet effet papillon que vous avez initié.

Vous pouvez même fabriquer votre propre monde puisque le mode Create embarque un éditeur de carte où vous dessinez des régions, vous les attribuez à des pays, vous posez le contexte historique et les relations diplomatiques de départ.

Et c'est un vrai jeu de stratègie, parce qu'il faut anticiper plusieurs coups à l'avance. Vous pouvez choisir un niveau de difficulté qui va de Very Easy à Impossible, le mode Normal étant calé pour rester réaliste. Vous choisissez aussi la qualité de l'IA, parce que derrière, le jeu fait tourner une trentaine de modèles différents via OpenRouter, des trucs d'OpenAI, d'Anthropic, de Google, et des modèles open source. Attention par contre, plus le modèle est costaud, plus il bouffe des tokens, donc sauf si vous aimez tomber en rade en plein milieu d'une guerre et être obligé de sortir la CB pour en racheter, démarrez avec les options les moins chères.

Et surtout, comme l'arme principale dans Pax Historia, c'est votre façon de formuler les choses, votre victoire dépend en grande partie de votre talent à argumenter. C'est du prompt engineering déguisé en grand jeu de stratégie, et je trouve que ça rejoint pas mal ce genre d'histoires où des modèles apprennent l'art de la persuasion . Le revers de la médaille, c'est que l'IA est encore beaucoup trop malléable du coup avec la bonne tournure de phrase, vous pouvez la convaincre de presque tout, un peu comme cette IA qu'on a baratinée pour lui faire lâcher 47 000 dollars .

Bref, si comme moi vous aimez triturer l'Histoire et réfléchir trois coups à l'avance, allez tester Pax Historia . C'est encore en alpha, mais j'ai trouvé l'idée brillante.

Heretic - Virer la censure d'une IA en une commande

Par : Korben ✨
26 mai 2026 à 08:08

Y'a des entreprises qui claquent des millions pour bien aligner leurs modèles d'IA afin qu'ils refusent toutes les questions sensibles qui font flipper nos amis puritains d'outre-Atlantique et y'a Heretic , un outil signé Philipp Emanuel Weidmann, qui balaye toute censure sur n'importe quel modèle en moins de 30 minutes avec une simple carte graphique de gamer.

Je vous explique... Vous devez avoir Python et une version récente de PyTorch sur votre machine, puis vous tapez pip install heretic-llm, puis heretic Qwen/Qwen3-4B-Instruct-2507 avec le nom du modèle que vous voulez décensurer.

Et l'outil fait alors sa vie et 20 à 30 minutes plus tard, vous récupérez une version du modèle qui a lâché prise sur l'essentiel de ses refus. Pas de dataset à préparer et surtout pas besoin de comprendre les entrailles d'un transformer, avec ce truc !

Dans un modèle aligné, le réflexe de refuser (le fameux "désolé, je ne peux pas vous aider avec ça") correspond souvent à une direction précise dans ses calculs internes. Les chercheurs appellent ça la "direction de refus". Et l'idée de l'abliteration, c'est de repérer cette direction et de la gommer des poids du modèle. En gros, on coupe le câble qui déclenche le "non", en touchant le moins possible au reste.

D'autres outils d'abliteration existaient déjà , mais leur réglage restait largement manuel et il y a aussi des gens comme mlabonne ou huihui-ai qui publient des modèles décensurés en ajustant les paramètres à la main, modèle par modèle, avec des résultats souvent inégaux. Mais Heretic, lui, automatise complètement le réglage. Pour cela, il s'appuie sur Optuna, un framework d'optimisation qui teste des dizaines de configurations et garde les meilleures tout seul. Et son seul objectif c'est de virer un max de refus tout en abîmant le moins possible le modèle d'origine.

Et de ce que je comprends, ça marche super bien ! Sur Gemma-3-12B, le modèle de Google de base refuse 97 fois sur 100 les prompts sensibles du benchmark maison. Mais après un petit passage dans Heretic, il tombe à 3 refus sur 100, soit le même niveau que les meilleures "nettoyages" manuels.

Et surtout, Heretic affiche une divergence de 0,16 là où les versions faites main grimpent à 0,45 voire 1,04 (C'est une mesure de l'écart de comportement sur les questions normales... plus c'est bas, mieux c'est).

Cela veut donc dire qu'il abîme beaucoup moins le modèle au passage.

Maintenant, tous les modèles n'y passent pas, car un gros calibre demande bien plus de VRAM et cela peut grimper à plusieurs heures. De plus, une étude comparative récente montre que le raisonnement mathématique est ce qui souffre le plus de ce genre d'abliteration, quel que soit l'outil utilisé.

Et surtout, y'a déjà des chercheurs qui bossent sur des défenses pour rendre les modèles résistants à ce genre d'attaque. Donc on verra bien, mais tant que c'est possible autant en profiter car des modèles sans bridage, ça permet notamment à des chercheurs d'étudier leurs propres failles, ou pour des usages du quotidien, de faire passer des demandes banales qui seraient bloquées (genre texte créatif, reverse engineering ou demande de conseils médicaux, ce genre de choses...)

Voilà, si vous bidouillez du LLM en local , allez voir ce projet car ça peut vous "ouvrir" quelques portes ^^.

Forget Your Old Loadout — 5 EDC Essentials Built for Summer 2026

16 mai 2026 à 11:40

Summer 2026 is a different kind of season for EDC. The carry conversation has matured past keychain gimmicks and bulk-heavy multitools into something sharper; gear that’s actually thought through, built from aerospace-grade materials, and designed with the same care as the objects that live on your desk. These five pieces represent the best of where that shift has landed: practical without being boring, minimal without being precious.

Whether you’re navigating festival crowds, weekend camping trips, or the daily urban grind, the right loadout isn’t about carrying more — it’s about carrying smarter. Each of the picks below earned its spot not through spec sheets alone, but through intentional design choices that make the experience of using them genuinely different. These are the five pieces worth making room for this summer.

1. Cubik Knife

Gravity-powered deployment sounds more cinematic than practical — until you hold the Cubik. Designed by IF and machined from aerospace-grade titanium, this pocket knife opens with a button-flick and the natural pull of gravity: no springs, no mechanisms to fail, no audible snap. At 2.6 inches long, 0.98 inches wide, and just 0.2 inches thick, it slips into a pocket and disappears. The Cubik looks more like a designer flash drive than a knife, which is exactly the point — and what makes it so easy to live with every single day.

The blade runs a standard trapezoid utility format — the same geometry used to slice linoleum, roofing materials, acrylic, and thin sheet metals. When one edge dulls, flip it; when both are spent, swap it. That interchangeable format turns a consumable item into something genuinely sustainable over time. A deep-carry titanium clip keeps it flush to the pocket edge, and a tungsten carbide glass-breaker on the rear makes it a legitimate lifesaver when it counts. At $59 with five replacement blades included, it’s one of the most sensibly priced titanium tools in the category.

What we like

  • Gravity-flick deployment is spring-free, meaning zero moving parts to fail over time
  • Swappable trapezoid blades make the Cubik cost-effective and sustainable for long-term carry

What we dislike

  • The utility blade format won’t appeal to collectors who prefer a dedicated knife steel
  • Gravity deployment requires a deliberate wrist flick that takes a brief learning curve

2. 8-in-1 EDC Scissors

Most EDC scissors ask you to accept a compromise — either you get a folding design that sacrifices cutting power, or you get a rigid tool that’s too bulky to pocket. The 8-in-1 EDC Scissors from Eiger Design, available through the Yanko Design Shop, sidesteps both problems. Made in Japan and compact enough to sit in a palm at just 13 centimeters (5.1 inches) closed, it packs scissors, a knife, a lid opener, a can opener, a cap opener, a bottle opener, a shell splitter, and a degasser into a single carry-ready object.

The scissors themselves are the real story — full-strength blades that don’t rely on a collapsible pivot to achieve their compact profile, which means they cut with conviction through materials that foldable scissors would snag or mangle. The remaining seven functions are genuine, not ornamental. For summer specifically — camping weekends, beach cookouts, farmers market errands, festival packing — this is the kind of tool that earns its weight early and keeps earning it. At $53 through the YD Shop, it’s the most versatile item on this list per dollar spent.

Click Here to Buy Now: $59.00

What we like

  • Eight independent tools in a 5.1-inch, palm-sized package that’s genuinely comfortable to carry daily
  • Made-in-Japan manufacturing brings real precision to both the scissors and every secondary tool

What we dislike

  • The scissors-first form factor means the secondary tools can feel secondary in actual day-to-day use
  • Not the right call if you’re shopping for a dedicated cutting tool rather than a multitool

3. NoxTi

NoxTi is the kind of object that makes you reassess what belongs on your keychain. Designed by Xedge and built from Grade 5 titanium, it measures just 45mm and weighs 10.7 grams. The core of the piece is a tritium vial — a sealed, self-luminous insert that glows continuously for 25 years without batteries, charging, or any external power source. Quartz glass protects the vial from impact, and the titanium housing supports interchangeable vial options alongside a glass-breaker tip at the rear, making it far more than a novelty.

In practical terms, NoxTi solves a problem most EDC setups don’t realize they have: passive orientation in the dark. When your keychain is at the bottom of a bag, buried in a jacket pocket, or left on a nightstand, the glow orients you without reaching for your phone. That always-on, zero-input utility is a design philosophy most gear claims but rarely delivers.

What we like

  • Tritium vial delivers 25 years of passive, battery-free illumination with no maintenance required
  • Grade 5 titanium housing and quartz vial protection make it exceptionally durable for keychain life

What we dislike

  • At 45mm, it’s compact but will add noticeable length to an already-loaded keychain setup
  • Tritium vials are radioactive (safely contained, but a consideration for buyers who prefer chemical-free carry)

4. HYZER

Exceed Designs doesn’t do anything conventionally, and the HYZER is the clearest proof of that. At its core, it’s a hatchet — but calling it that undersells the engineering. The handle is fully skeletonized and CNC-machined from a solid block of 6AL-4V Grade 5 titanium, available in two lengths: a full-size 9.75 inches or a compact 8.15 inches. The head runs on an infinitely modular nested system that lets you swap cutting formats without replacing the handle — a level of adaptability that no conventional hatchet even attempts.

For summer carry — backcountry hiking, basecamp setups, or serious van-life configurations — the HYZER changes the math on what a hatchet needs to be. The D2 steel axe head delivers serious chopping performance, while the titanium handle keeps the tool lighter than any steel-handled competitor in its class. The stonewashed finish gives it a visual identity that’s unmistakably premium without being precious about it.

What we like

  • The modular nested head system allows the HYZER to adapt to different cutting and splitting configurations
  • Full skeletonized Grade 5 titanium achieves meaningful weight savings without compromising structural integrity

What we dislike

  • The premium titanium and D2 material combination places this at a significantly higher price point than most seasonal carries
  • Two-handed hatchet operation demands dedicated pack space that the other four items on this list don’t require

5. BlackoutBeam Tactical Flashlight

A 2,300-lumen output in a tactical flashlight isn’t rare in 2026 — but a 2,300-lumen flashlight that looks like it belongs at a design exhibition rather than a military surplus store is still genuinely hard to find. The BlackoutBeam, available through the Yanko Design Shop at $90, pairs that blinding output with an industrial aesthetic that wears well whether it’s clipped to a backpack or sitting on a shelf. The 300-meter throw distance cuts through darkness with clinical precision, and the IP68 waterproof rating ensures it performs regardless of what summer throws at it.

Five operational modes — including strobe and pinpoint — give the BlackoutBeam tactical flexibility that goes well beyond on-off cycling. The 0.2-second instant-on response is the detail that separates tools built for designers from tools built for actual use: in a power outage, a trail emergency, or any situation where you need light immediately, that activation speed matters in a way that a spec sheet can’t fully communicate. With longer days turning into late evenings outdoors and camping season running hot, the case for a serious flashlight in your summer kit has never been more straightforward.

Click Here to Buy Now: $89.00

What we like

  • 2,300-lumen output with a 300-meter throw distance puts it firmly in professional-grade territory
  • A 0.2-second instant-on response time makes it genuinely dependable when the situation demands it

What we dislike

  • The tactical aesthetic reads as aggressive for carry setups that lean toward minimalist or everyday styling

The Best Loadout Is the One You Actually Think About

What these five pieces share isn’t material or price point…it’s intention. Every one of them was designed by someone who cared enough to solve the actual problem rather than approximate a solution. That’s the standard worth holding EDC to in 2026, and it’s becoming a higher bar to clear as the category matures and the market fills with near-misses. The best loadout is never the one with the most gear. It’s the one with the right gear.

Summer tends to be the season when carry gets edited down; lighter layers mean fewer pockets, and heat means less patience for bulk. These five designs all pass that test. They’re compact enough to disappear when you want them to and capable enough to matter when you don’t. Whether you pick up one or all five, the upgrade from whatever you’re carrying now is real.

The post Forget Your Old Loadout — 5 EDC Essentials Built for Summer 2026 first appeared on Yanko Design.

Waymo’s Self-Driving Car Saw the Flood and Drove In Anyway. Here’s The Problem Plaguing Every Robotaxi.

Par : Sarang Sheth
15 mai 2026 à 20:45

Every sensor on a Waymo robotaxi sees the world in layers. The LiDAR maps it in three dimensions, radar bounces through it, and cameras read it in color and contrast, building a composite picture of the road that no human retina could match at the same fidelity. So when a Waymo encountered a flooded section of a 40 mph road in San Antonio on April 20, the car absolutely saw the water. It slowed down for it. Then it drove in anyway, floated off the road surface, and came to rest in Salado Creek. The voluntary recall Waymo filed with NHTSA on April 30, covering 3,791 vehicles, was triggered not by a sensor that missed a hazard, but by a software stack that saw the hazard clearly and still chose the wrong response.

You might be sitting in one of those 3,791 recalled vehicles right now, somewhere in Phoenix, Los Angeles, Austin, or Atlanta, and Waymo has confirmed the permanent software fix is still in development. Tesla’s Cybercab, entering production at Giga Texas, runs a supervised robotaxi service in Austin, Dallas, and Houston on a pure-vision architecture with no LiDAR whatsoever. Uber’s platform in Dallas is dispatching Avride-operated Hyundai Ioniq 5s that are currently under NHTSA investigation for 16 crashes involving lane changes and failure to stop for traffic ahead. Amazon’s Zoox uses cameras, LiDAR, radar, and long-wave infrared on every vehicle, the most sensor-redundant consumer-facing stack in the industry, and is still in limited city testing. Each platform has a different answer to what a self-driving car should do when it encounters something it cannot traverse, and after the San Antonio creek, all of those answers deserve a much closer look.

The NHTSA recall notice characterizes the flaw precisely: the software “may allow the vehicle to slow and then drive into standing water on higher speed roadways.” That is a classification error buried in the decision stack, not a sensor failure, and the distinction matters more than the recall number suggests. Waymo’s 5th-gen Jaguar I-Pace and 6th-gen Zeekr RT both carry LiDAR, radar, and cameras in overlapping fields of view, and the San Antonio car processed the flooded road accurately as a hazard worth responding to. The decision architecture, however, had no hard-stop condition for water on a 40 mph road, only a caution flag that reduced speed and left proceeding as an available output. A separate Waymo had already been stranded near McCullough Avenue in San Antonio roughly two weeks before the April 20 incident, confirming this was a repeatable failure mode across a fleet that was still carrying passengers in nine other cities.

Tesla’s Cybercab carries no LiDAR, putting its supervised fleet in Austin, Dallas, and Houston in a fundamentally different position when floodwater appears than Waymo’s overlapping sensor stack would. The platform relies on eight cameras and 4D millimeter-wave radar, meaning no independent depth-sensing channel exists to assess water severity when camera visibility degrades in heavy rain. A real-world FSD 14.3.1 test in April 2026 ended in manual takeover when the front bumper camera submerged, a precise illustration of where the vision-only approach runs out of information. Avride, dispatching Hyundai Ioniq 5s through Uber’s Dallas app since December, is under concurrent NHTSA investigation for 16 crashes involving lane changes and failures to stop for road hazards, all 16 occurring with a trained safety monitor seated in the vehicle. Amazon’s Zoox sits at the opposite end of the sensor redundancy spectrum, combining cameras, LiDAR, radar, and long-wave infrared in a 360-degree array with a human TeleGuidance fallback for scenarios the stack cannot resolve, though its commercial footprint remains a fraction of Waymo’s.

The Waymo recall, the Avride probe, and a dashcam video of a Waymo rolling through a red light on Irving Boulevard in Dallas all surfaced in the same seven-day window, collectively mapping the same design gap across three platforms: a perception-to-action pipeline that detects a hazard but generates the wrong response to it. Waymo’s OTA patch is deploying now, but the permanent fix remains in development, meaning every current ride runs on interim constraints rather than a finished solution. The San Antonio incident involved an empty car, and that is the only reason this story ends with a recovery operation rather than a casualty report. Each platform carrying passengers today is still writing its edge-case rulebook, publishing each new chapter only after something breaks on a live road. Knowing which system you are riding in, what its sensor stack can assess in a sudden storm, and whether its flood-detection logic has been patched from an interim fix to an actual solution is, I’d argue, the most practical safety question a passenger can ask in 2026.

The post Waymo’s Self-Driving Car Saw the Flood and Drove In Anyway. Here’s The Problem Plaguing Every Robotaxi. first appeared on Yanko Design.

❌
❌