Vue normale
TurboQuant - Un LLM de 104B sur un MacBook, merci Google
Vous faites tourner des LLMs en local comme le gros fifou de Hipster IA que vous êtes et, Ô drame, la VRAM de votre ordinateur explose dès que le contexte dépasse 8000 pauvres malheureux tokens ?
Le problème c'est le KV cache les amis ! Le KV cache c'est ce truc qui stocke les clés et valeurs d'attention et qui grossit linéairement avec la longueur du prompt. C'est pour gérer ce problème que Google a annoncé sous la forme d'un whitepaper uniquement un algo qui compresse tout ça de 3,8 à 6,4 fois... et youpi pour nous, y'a un dev qui l'a déjà implémenté dans un fork de llama.cpp .
Concrètement ça donne :
llama-server -m model.gguf -ctk turbo3 -ctv turbo3 -fa on
Et vous venez de diviser la mémoire du cache par 4,6. Et voilà comment un énoooorme Command-R+ de 104 milliards de paramètres arrive à tourner à 128K tokens de contexte sur un MacBook M5 Max, avec un pic mémoire max de 74 Go.
Pour bien comprendre pourquoi c'est costaud, faut revenir au problème de base. En fait quand un LLM génère du texte, il stocke pour chaque token passé 2 vecteurs (la clé K et la valeur V) dans un cache. Plus le contexte est long, plus ce cache grossit. Et ça s'accumule vite... Par exemple, sur un Llama 70B avec 128K tokens de contexte, le KV cache en fp16 bouffe à lui seul plus de 40 Go de RAM. Du coup votre modèle Llama 3.1 ou Qwen3 rentre évidemment en mémoire, mais le cache, lui, fait tout déborder comme vous quand vous vous incrustez dans la mini piscine Intex des gosses.
Google a publié son papier TurboQuant fin mars et leur idée c'est de compresser ces vecteurs K et V en 3-4 bits au lieu de 16, sans ré-entraîner le modèle. En fait l'algorithme fait ça en deux étapes...
D'abord PolarQuant : on applique une rotation Walsh-Hadamard aux vecteurs pour "gaussianiser" leur distribution, genre transformer des données qui partent dans tous les sens en une forme bien ronde et prévisible.
Puis on convertit les coordonnées cartésiennes en coordonnées polaires, rayon + angle. Le rayon capture alors l'essentiel de l'information, et l'angle se compresse très bien parce que sa distribution est connue à l'avance.
Ensuite, deuxième étape, QJL (Quantized Johnson-Lindenstrauss) : Il s'agit d'un correcteur d'erreur à 1 bit qui élimine le biais résiduel, le tout sans overhead mémoire pour les constantes de quantification, contrairement aux méthodes classiques comme q4_0 ou q5_1 qui perdent 1-2 bits rien qu'en stockant leurs propres paramètres.
Et c'est là qu'intervient notre développeur de génie, TheTom, qui a pris ce document académique de Google et l'a transformé en code C avec des kernels Metal pour Apple Silicon et CUDA pour NVIDIA. Et c'est pas juste un portage bête et méchant puisqu'il a vraiment poussé les expériences bien au-delà du document original avec une couverture de tests de 100% et des benchmarks sur des modèles de 1.5 à 104 milliards de paramètres.
Et ses découvertes les plus intéressantes c'est justement ce qui n'est PAS dans le paper. Première trouvaille : la compression des valeurs V est gratuite. Compresser V à 2 bits sur Qwen, Llama, Mistral ou Command-R+ n'a aucun impact mesurable sur la qualité d'attention, tant que les clés K restent en q8_0.
Et cela a été confirmé sur Metal M5 Max 128 Go, CUDA RTX 4090 et RTX 3090 par plusieurs testeurs indépendants. C'est franchement contre-intuitif, mais cela veut dire que toute la dégradation de qualité vient de la compression des clés K, et pas de leurs valeurs. Du coup une config asymétrique (K en q8_0, V en turbo3) arrive à récupèrer des modèles où la compression symétrique échoue.
Deuxième trouvaille : les couches limites sont hypersensibles. Protéger les 2 premières et 2 dernières couches en q8_0 pendant qu'on compresse le reste en turbo2 permet de récupérer jusqu'à 91% de la perte de qualité. Et plus le modèle est gros, mieux ça marche. C'est seulement 15 lignes de code, et là encore, y'a aucun impact sur la vitesse.
Troisième trouvaille : Sparse V, un décodage du cache qui saute les positions V à faible poids d'attention permet de gagner environ 23% de vitesse de décodage à 32K tokens de contexte. Et zéro dégradation de la qualité.
Côté chiffres bruts, y'a 3 modes : turbo4 compresse 3.8x et le modèle répond quasi pareil qu'avant. turbo3 compresse 4.6x avec une perte de qualité à peine détectable. turbo2 pousse à 6.4x mais là faut l'utiliser malin (uniquement sur les valeurs V, pas les clés K).
Et dire que pour l'instant Google n'a toujours pas publié de code officiel (mais c'est prévu pour le second trimestre 2026)... Donc pour le moment, cette implémentation communautaire est le seul moyen de tester TurboQuant dans un fork llama.cpp. Ça tourne sur Apple Silicon M1 à M5, NVIDIA RTX 3080 Ti à 5090 et AMD 6800 XT / 9070 XT et visiblement, pas mal de monde a testé sur du matériel varié et les résultats sont au rendez-vous.
Donc voilà, si vous faites de l' inférence LLM locale et que la mémoire vous limite, c'est le moment de tester ça !
![]()
Qobuz en bit-perfect sur Linux (enfin !!)
Si vous êtes abonné Qobuz et que vous êtes sous Linux, vous connaissez cette douleur sourde qui vous coupe le souffle la nuit : IL N'Y A PAS DE CLIENT OFFICIEL ! Vous êtes donc condamné comme n'importe quel gueux à utiliser le lecteur web, qui est aussi "audiophile-phile" qu'un casque de chantier.
Mais heureusement, QBZ vient régler ça, et vous allez voir, c'est du sérieux !
Il s'agit d'un client natif et open source (sous licence MIT) écrit en Rust avec Tauri 2.0 côté desktop et SvelteKit pour l'interface, ce qui fait que c'est léger, que ça démarre vite, et surtout ça gère le bit-perfect via 4 backends audio au choix : PipeWire, ALSA, ALSA Direct (accès exclusif au DAC) et PulseAudio.
Le switching de sample rate se fait alors à la volée, de 44.1 à 192 kHz, selon ce que votre DAC supporte. Pour les audiophiles... bah ça change tout par rapport au resampling sauvage du navigateur. Ouf, on est sauvé en fait ^^
Côté fonctionnalités, c'est clairement loin du petit projet bricolé un dimanche soir en vibe coding puisque ce lecteur décode nativement FLAC, MP3, AAC, ALAC, WavPack, Ogg Vorbis et Opus, le tout avec du gapless playback et de la normalisation de loudness EBU R128. Je comprends pas tout parce que je suis pas expert là dedans, mais si vous aimez la Hi-Fi, je sais que ça vous parle.
Y'a aussi une gestion de bibliothèque locale avec scan de dossiers et indexation SQLite, et même un import de playlists depuis Spotify, Apple Music, Tidal ou Deezer. Ainsi, si vous migrez vers Qobuz, ça vous fera gagner des heures plutôt que de tout vous retaper à créer à la main !
Niveau intégrations, c'est aussi super complet : scrobbling Last.fm et ListenBrainz, enrichissement MusicBrainz, pochettes via Discogs, contrôle MPRIS et touches média. Et le casting vers Chromecast, DLNA/UPnP et AirPlay est intégré. Le Chromecast directement depuis un client Linux sans bidouille, c'est pas courant, et ça fait plaizzz !
L'interface est également hyper soignée avec 26 thèmes au choix (Dark, OLED, Nord, Dracula, Tokyo Night...) et 17 panneaux de visualisation dont un spectre, un oscilloscope et un spectrogramme. Y'a même un mode immersif plein écran, le tout dispo en 5 langues dont le français.
Pour l'installation, c'est packagé proprement : Flatpak, AUR, Snap, AppImage, DEB, RPM et même un DMG pour macOS (Apple Silicon, expérimental) et si vous êtes sur Arch, un petit yay -S qbz-bin et c'est réglé.
Par contre, il y a quelques limites à connaître comme le seeking sur des pistes hi-res au-dessus de 96 kHz qui peut prendre 10 à 20 secondes. ALSA Direct bloque aussi les autres applis audio (logique, c'est l'accès exclusif). Et le bit-perfect via PipeWire est limité quand on lance le tout en sandbox Flatpak. En fait, le problème c'est que la sandbox bloque l'accès direct au matériel donc si vous voulez le max de qualité, optez pour le paquet natif.
Si Qobuz est votre service de streaming et que Linux est votre OS préféré d'amour, les alternatives payantes comme Audirvana ou Roon ne sont clairement pas données. C'est pour cela que je vous parle de QBZ qui fait le boulot gratuitement comme un chef et dont le développeur (vicrodh) est super actif (il recherche des contributeurs si vous voulez l'aider).
Et un grand merci à Pierre pour le tuyau !
![]()
Le plus vieux torrent de The Pirate Bay fête ses 22 ans
Un épisode de la série suédoise High Chaparral, uploadé le 25 mars 2004 sur The Pirate Bay, est toujours partagé aujourd'hui. Vingt-deux ans plus tard, des pirates le seedent encore, non pas pour le contenu, mais juste pour le symbole. Un record de longévité qui en dit long sur la culture du torrent, et sur la résistance du site le plus traqué du web.
Un fichier devenu culte
Tout a commencé par un épisode d'une émission de télé suédoise, High Chaparral, avec un passage du célèbre Uri Geller. Le fichier a été uploadé sur The Pirate Bay le 25 mars 2004, quelques mois après le lancement du site. Et il est toujours là. Selon les données d'OpenTrackr.org, quatre seeders partagent encore le fichier complet en 2026. Personne ne le télécharge pour le contenu, on est d'accord.
C'est devenu un trophée, un petit monument du piratage. Quelques semaines après la mise en ligne, des utilisateurs se plaignaient déjà de rester bloqués à 99 %. Le fichier a failli disparaître, mais des irréductibles l'ont maintenu en vie, année après année.
Des torrents qui refusent de mourir
Le deuxième plus vieux torrent du site date du 31 mars 2004, six jours après. C'est une copie du documentaire Revolution OS, qui retrace l'histoire de Linux et du logiciel libre. Plus de 33 personnes le partagent encore activement. Son réalisateur, J.T.S. Moore, avait d'ailleurs exprimé son mécontentement face au piratage de son film, tout en reconnaissant que ça lui avait donné une longévité inattendue.
Et puis il y a The Fanimatrix, un fan-film inspiré de Matrix, créé en septembre 2003. Celui-là n'est pas hébergé sur The Pirate Bay mais il détient le record du plus vieux torrent actif au monde, avec des dizaines de seeders fidèles au poste. Tourné en Nouvelle-Zélande avec 800 dollars de budget, dont la moitié partie dans un blouson en cuir, il avait été téléchargé 70 000 fois la première semaine.
Si vous vous demandez pourquoi BitTorrent a eu autant de succès à l'époque, voilà un début de réponse : le protocole leur avait économisé environ 550 000 dollars de bande passante.
The Pirate Bay, le survivant
The Pirate Bay a enterré à peu près tous ses concurrents. TorrentSpy, Mininova, isoHunt, KickassTorrents, ExtraTorrent, RARBG, TorrentGalaxy, la liste est longue. Le site tourne encore, même si on ne peut pas dire qu'il soit en grande forme.
L'inscription ne fonctionne plus, les commentaires non plus, et l'interface n'a pas bougé depuis des années. Mais il reste debout, ce qui en soi est un exploit. Ses trois fondateurs, Gottfrid Svartholm, Fredrik Neij et Peter Sunde, ont tous été condamnés en 2009 à un an de prison et 30 millions de couronnes suédoises d'amende. Le site a changé de mains, de serveurs, de pays, mais il est toujours là.
Internet a changé dix fois depuis 2004, les services de streaming se sont multipliés, et des gens continuent de partager un épisode de télé suédoise que personne ne regarde. Juste parce que c'est le plus vieux. On est quelque part entre la résistance numérique et la collection de timbres, version geek. The Pirate Bay lui-même est devenu une sorte de vestige, un site qui fonctionne à moitié mais que personne n'arrive à faire disparaître. Difficile de ne pas trouver ça un peu fascinant.
Source : Torrent Freak
![]()
-
Articles on TechRepublic
- Iran Threatens to Attack Apple, Google, and Other US Tech Firms in Middle East
Iran Threatens to Attack Apple, Google, and Other US Tech Firms in Middle East
Iran has threatened multiple US tech giants in the Middle East, escalating tensions and raising fears of AI-driven warfare turning physical.
The post Iran Threatens to Attack Apple, Google, and Other US Tech Firms in Middle East appeared first on TechRepublic.
Microsoft: Hackers Are Using WhatsApp to Deliver Malware to Windows PCs
Hackers are using WhatsApp messages to deliver malware to Windows PCs, exploiting user trust and attachments to trigger stealthy, multi-stage attacks.
The post Microsoft: Hackers Are Using WhatsApp to Deliver Malware to Windows PCs appeared first on TechRepublic.
Apple Prepares Siri for Multi-Step AI Requests in iOS 27
Apple is testing a Siri upgrade for iOS 27 that could handle multiple requests in a single command, as part of its broader overhaul of the assistant.
The post Apple Prepares Siri for Multi-Step AI Requests in iOS 27 appeared first on TechRepublic.
Google Warns Quantum Computers Could Crack Crypto Sooner Than Expected
Google warns that quantum computers could break crypto sooner than expected, heightening the urgency for post-quantum security across blockchain networks.
The post Google Warns Quantum Computers Could Crack Crypto Sooner Than Expected appeared first on TechRepublic.
Oracle Slashes Thousands of Jobs While Doubling Down on AI Expansion
Oracle cuts thousands of jobs as investor concerns grow over its $500 billion AI data center push, raising questions about risk, strategy, and long-term returns.
The post Oracle Slashes Thousands of Jobs While Doubling Down on AI Expansion appeared first on TechRepublic.
8 Gemini AI Prompts That Turn Ordinary Photos Into Professional Portraits
These eight Google Gemini AI prompts transform ordinary photos into polished portraits for LinkedIn, personal branding, family photos, and more.
The post 8 Gemini AI Prompts That Turn Ordinary Photos Into Professional Portraits appeared first on TechRepublic.
New North Korean AI Hiring Scheme Targets US Companies
North Korean operatives are using AI-generated resumes and stolen identities to infiltrate US companies, turning hiring pipelines into a new attack vector.
The post New North Korean AI Hiring Scheme Targets US Companies appeared first on TechRepublic.
Google Drive Expands AI Ransomware Detection, File Recovery to More Users
Google expands Drive ransomware detection and file recovery with its latest AI model, which detects 14 times more infections as the features move beyond beta.
The post Google Drive Expands AI Ransomware Detection, File Recovery to More Users appeared first on TechRepublic.
-
Articles on TechRepublic
- Mistral Raises $830M in Debt Financing to Build Nvidia-Powered AI Hub in Europe
Mistral Raises $830M in Debt Financing to Build Nvidia-Powered AI Hub in Europe
An $830 million boost puts Mistral at the center of Europe’s bid to build its own AI infrastructure and reduce reliance on cloud services.
The post Mistral Raises $830M in Debt Financing to Build Nvidia-Powered AI Hub in Europe appeared first on TechRepublic.
Meta Expands Smart Glasses Line With Prescription-First Ray-Ban Models
Meta is launching new Ray-Ban smart glasses built for prescription users, signaling a stronger push into AI-powered wearables and everyday smart tech.
The post Meta Expands Smart Glasses Line With Prescription-First Ray-Ban Models appeared first on TechRepublic.
Mac Studio 2026: New Leaks Tease M5 Power, Price, and Launch Timeline
New leaks reveal Apple’s M5 Mac Studio with major performance upgrades, a shifting release timeline, and rising prices. Here’s what we know so far.
The post Mac Studio 2026: New Leaks Tease M5 Power, Price, and Launch Timeline appeared first on TechRepublic.
-
Articles on TechRepublic
- Meta Tests Paid Instagram Subscription in Mexico, Japan, and the Philippines
Meta Tests Paid Instagram Subscription in Mexico, Japan, and the Philippines
Meta is testing Instagram Plus, a paid tier for regular users that adds Story features focused on privacy, reach, and in-app audience control.
The post Meta Tests Paid Instagram Subscription in Mexico, Japan, and the Philippines appeared first on TechRepublic.
7 Best ChatGPT Image Prompts in 2026: How to Get Better AI Photos
Use these prompt templates to generate sharper ChatGPT images in 2026, from hero sections and product shots to retouching and pricing layouts.
The post 7 Best ChatGPT Image Prompts in 2026: How to Get Better AI Photos appeared first on TechRepublic.
Le piratage par IA n'a plus besoin de malware : une simple doc suffit
Une nouvelle méthode d'attaque cible les IA de développement comme Copilot. En publiant de la documentation empoisonnée, des hackers trompent les modèles pour qu'ils recommandent des bibliothèques malveillantes. Cette menace invisible pour la sécurité est indétectable par les outils classiques.
Le concept est d'une simplicité désarmante. Plus besoin d'injecter du code malicieux dans un dépôt GitHub ou de trouver une faille zero-day complexe. Il suffit désormais de publier de la documentation technique faussée sur des forums, des wikis ou des fichiers README publics. Ces textes, une fois ingérés par les grands modèles de langage (LLM), deviennent une source de vérité pour l'IA qui assiste les développeurs au quotidien.
Le mécanisme de l'injection indirecte
Le problème est en fait dans la confiance aveugle que les modèles accordent aux données d'entraînement. En décrivant une solution technique qui utilise un paquet spécifique — mais malveillant — l'attaquant s'assure que l'IA proposera ce nom lors d'une requête de génération de code. C'est ce qu'on appelle l'injection de prompt indirecte. Le développeur, pensant gagner du temps, valide la suggestion et installe un composant compromis sans vérification préalable.
Le typosquatting passe au niveau supérieur
Cette technique facilite grandement le typosquatting. Auparavant, un attaquant devait espérer qu'un humain fasse une faute de frappe en saisissant une commande. Aujourd'hui, c'est l'IA qui commet l'erreur pour lui, influencée par des références empoisonnées trouvées sur le web. Comme l'IA présente la solution avec une assurance pédagogique, le sens critique de l'utilisateur baisse d'un cran. Le malware n'est plus dans la documentation, il arrive dans la machine au moment où le développeur exécute la suggestion générée.
Un défi pour la cybersécurité logicielle
La difficulté majeure est que cette attaque est purement textuelle. Les outils de scan de vulnérabilités cherchent du code dangereux, pas des explications trompeuses en langage naturel. Tant que les modèles d'IA ne sauront pas distinguer une documentation légitime d'une tentative de manipulation sémantique, la chaîne d'approvisionnement logicielle restera vulnérable à cette forme de gaslighting numérique. La sécurité repose désormais sur la véracité de l'information ingérée par les machines.
On atteint ici les limites de l'automatisation du développement. Faire confiance à un LLM pour choisir ses dépendances est devenu un risque de sécurité majeur. Cette faille montre que le maillon faible n'est plus seulement l'humain qui tape du code, mais l'outil qui lui souffle les réponses. On risque de voir apparaître des systèmes de vérification de réputation de documentation.
Source : The Register
![]()
A Jury Just Blamed Meta and YouTube for Social Media Addiction
A jury finds Meta and YouTube liable in a landmark social media addiction case, signaling major legal risks for Big Tech and platform design.
The post A Jury Just Blamed Meta and YouTube for Social Media Addiction appeared first on TechRepublic.



