Vue lecture
TurboQuant - Un LLM de 104B sur un MacBook, merci Google
Vous faites tourner des LLMs en local comme le gros fifou de Hipster IA que vous êtes et, Ô drame, la VRAM de votre ordinateur explose dès que le contexte dépasse 8000 pauvres malheureux tokens ?
Le problème c'est le KV cache les amis ! Le KV cache c'est ce truc qui stocke les clés et valeurs d'attention et qui grossit linéairement avec la longueur du prompt. C'est pour gérer ce problème que Google a annoncé sous la forme d'un whitepaper uniquement un algo qui compresse tout ça de 3,8 à 6,4 fois... et youpi pour nous, y'a un dev qui l'a déjà implémenté dans un fork de llama.cpp .
Concrètement ça donne :
llama-server -m model.gguf -ctk turbo3 -ctv turbo3 -fa on
Et vous venez de diviser la mémoire du cache par 4,6. Et voilà comment un énoooorme Command-R+ de 104 milliards de paramètres arrive à tourner à 128K tokens de contexte sur un MacBook M5 Max, avec un pic mémoire max de 74 Go.
Pour bien comprendre pourquoi c'est costaud, faut revenir au problème de base. En fait quand un LLM génère du texte, il stocke pour chaque token passé 2 vecteurs (la clé K et la valeur V) dans un cache. Plus le contexte est long, plus ce cache grossit. Et ça s'accumule vite... Par exemple, sur un Llama 70B avec 128K tokens de contexte, le KV cache en fp16 bouffe à lui seul plus de 40 Go de RAM. Du coup votre modèle Llama 3.1 ou Qwen3 rentre évidemment en mémoire, mais le cache, lui, fait tout déborder comme vous quand vous vous incrustez dans la mini piscine Intex des gosses.
Google a publié son papier TurboQuant fin mars et leur idée c'est de compresser ces vecteurs K et V en 3-4 bits au lieu de 16, sans ré-entraîner le modèle. En fait l'algorithme fait ça en deux étapes...
D'abord PolarQuant : on applique une rotation Walsh-Hadamard aux vecteurs pour "gaussianiser" leur distribution, genre transformer des données qui partent dans tous les sens en une forme bien ronde et prévisible.
Puis on convertit les coordonnées cartésiennes en coordonnées polaires, rayon + angle. Le rayon capture alors l'essentiel de l'information, et l'angle se compresse très bien parce que sa distribution est connue à l'avance.
Ensuite, deuxième étape, QJL (Quantized Johnson-Lindenstrauss) : Il s'agit d'un correcteur d'erreur à 1 bit qui élimine le biais résiduel, le tout sans overhead mémoire pour les constantes de quantification, contrairement aux méthodes classiques comme q4_0 ou q5_1 qui perdent 1-2 bits rien qu'en stockant leurs propres paramètres.
Et c'est là qu'intervient notre développeur de génie, TheTom, qui a pris ce document académique de Google et l'a transformé en code C avec des kernels Metal pour Apple Silicon et CUDA pour NVIDIA. Et c'est pas juste un portage bête et méchant puisqu'il a vraiment poussé les expériences bien au-delà du document original avec une couverture de tests de 100% et des benchmarks sur des modèles de 1.5 à 104 milliards de paramètres.
Et ses découvertes les plus intéressantes c'est justement ce qui n'est PAS dans le paper. Première trouvaille : la compression des valeurs V est gratuite. Compresser V à 2 bits sur Qwen, Llama, Mistral ou Command-R+ n'a aucun impact mesurable sur la qualité d'attention, tant que les clés K restent en q8_0.
Et cela a été confirmé sur Metal M5 Max 128 Go, CUDA RTX 4090 et RTX 3090 par plusieurs testeurs indépendants. C'est franchement contre-intuitif, mais cela veut dire que toute la dégradation de qualité vient de la compression des clés K, et pas de leurs valeurs. Du coup une config asymétrique (K en q8_0, V en turbo3) arrive à récupèrer des modèles où la compression symétrique échoue.
Deuxième trouvaille : les couches limites sont hypersensibles. Protéger les 2 premières et 2 dernières couches en q8_0 pendant qu'on compresse le reste en turbo2 permet de récupérer jusqu'à 91% de la perte de qualité. Et plus le modèle est gros, mieux ça marche. C'est seulement 15 lignes de code, et là encore, y'a aucun impact sur la vitesse.
Troisième trouvaille : Sparse V, un décodage du cache qui saute les positions V à faible poids d'attention permet de gagner environ 23% de vitesse de décodage à 32K tokens de contexte. Et zéro dégradation de la qualité.
Côté chiffres bruts, y'a 3 modes : turbo4 compresse 3.8x et le modèle répond quasi pareil qu'avant. turbo3 compresse 4.6x avec une perte de qualité à peine détectable. turbo2 pousse à 6.4x mais là faut l'utiliser malin (uniquement sur les valeurs V, pas les clés K).
Et dire que pour l'instant Google n'a toujours pas publié de code officiel (mais c'est prévu pour le second trimestre 2026)... Donc pour le moment, cette implémentation communautaire est le seul moyen de tester TurboQuant dans un fork llama.cpp. Ça tourne sur Apple Silicon M1 à M5, NVIDIA RTX 3080 Ti à 5090 et AMD 6800 XT / 9070 XT et visiblement, pas mal de monde a testé sur du matériel varié et les résultats sont au rendez-vous.
Donc voilà, si vous faites de l' inférence LLM locale et que la mémoire vous limite, c'est le moment de tester ça !

Iran Threatens to Attack Apple, Google, and Other US Tech Firms in Middle East
Iran has threatened multiple US tech giants in the Middle East, escalating tensions and raising fears of AI-driven warfare turning physical.
The post Iran Threatens to Attack Apple, Google, and Other US Tech Firms in Middle East appeared first on TechRepublic.
Apple Prepares Siri for Multi-Step AI Requests in iOS 27
Apple is testing a Siri upgrade for iOS 27 that could handle multiple requests in a single command, as part of its broader overhaul of the assistant.
The post Apple Prepares Siri for Multi-Step AI Requests in iOS 27 appeared first on TechRepublic.
Google Warns Quantum Computers Could Crack Crypto Sooner Than Expected
Google warns that quantum computers could break crypto sooner than expected, heightening the urgency for post-quantum security across blockchain networks.
The post Google Warns Quantum Computers Could Crack Crypto Sooner Than Expected appeared first on TechRepublic.
Oracle Slashes Thousands of Jobs While Doubling Down on AI Expansion
Oracle cuts thousands of jobs as investor concerns grow over its $500 billion AI data center push, raising questions about risk, strategy, and long-term returns.
The post Oracle Slashes Thousands of Jobs While Doubling Down on AI Expansion appeared first on TechRepublic.
8 Gemini AI Prompts That Turn Ordinary Photos Into Professional Portraits
These eight Google Gemini AI prompts transform ordinary photos into polished portraits for LinkedIn, personal branding, family photos, and more.
The post 8 Gemini AI Prompts That Turn Ordinary Photos Into Professional Portraits appeared first on TechRepublic.
New North Korean AI Hiring Scheme Targets US Companies
North Korean operatives are using AI-generated resumes and stolen identities to infiltrate US companies, turning hiring pipelines into a new attack vector.
The post New North Korean AI Hiring Scheme Targets US Companies appeared first on TechRepublic.
Google Drive Expands AI Ransomware Detection, File Recovery to More Users
Google expands Drive ransomware detection and file recovery with its latest AI model, which detects 14 times more infections as the features move beyond beta.
The post Google Drive Expands AI Ransomware Detection, File Recovery to More Users appeared first on TechRepublic.
Mistral Raises $830M in Debt Financing to Build Nvidia-Powered AI Hub in Europe
An $830 million boost puts Mistral at the center of Europe’s bid to build its own AI infrastructure and reduce reliance on cloud services.
The post Mistral Raises $830M in Debt Financing to Build Nvidia-Powered AI Hub in Europe appeared first on TechRepublic.
Apple’s iOS 26.5 Beta: Here’s a First Look at What’s New
Apple’s iOS 26.5 beta brings back RCS encryption, updates Apple Maps, and hints at bigger changes still to come with iOS 27.
The post Apple’s iOS 26.5 Beta: Here’s a First Look at What’s New appeared first on TechRepublic.
Meta Expands Smart Glasses Line With Prescription-First Ray-Ban Models
Meta is launching new Ray-Ban smart glasses built for prescription users, signaling a stronger push into AI-powered wearables and everyday smart tech.
The post Meta Expands Smart Glasses Line With Prescription-First Ray-Ban Models appeared first on TechRepublic.
Mac Studio 2026: New Leaks Tease M5 Power, Price, and Launch Timeline
New leaks reveal Apple’s M5 Mac Studio with major performance upgrades, a shifting release timeline, and rising prices. Here’s what we know so far.
The post Mac Studio 2026: New Leaks Tease M5 Power, Price, and Launch Timeline appeared first on TechRepublic.
7 Best ChatGPT Image Prompts in 2026: How to Get Better AI Photos
Use these prompt templates to generate sharper ChatGPT images in 2026, from hero sections and product shots to retouching and pricing layouts.
The post 7 Best ChatGPT Image Prompts in 2026: How to Get Better AI Photos appeared first on TechRepublic.
Le piratage par IA n'a plus besoin de malware : une simple doc suffit
Une nouvelle méthode d'attaque cible les IA de développement comme Copilot. En publiant de la documentation empoisonnée, des hackers trompent les modèles pour qu'ils recommandent des bibliothèques malveillantes. Cette menace invisible pour la sécurité est indétectable par les outils classiques.
Le concept est d'une simplicité désarmante. Plus besoin d'injecter du code malicieux dans un dépôt GitHub ou de trouver une faille zero-day complexe. Il suffit désormais de publier de la documentation technique faussée sur des forums, des wikis ou des fichiers README publics. Ces textes, une fois ingérés par les grands modèles de langage (LLM), deviennent une source de vérité pour l'IA qui assiste les développeurs au quotidien.
Le mécanisme de l'injection indirecte
Le problème est en fait dans la confiance aveugle que les modèles accordent aux données d'entraînement. En décrivant une solution technique qui utilise un paquet spécifique — mais malveillant — l'attaquant s'assure que l'IA proposera ce nom lors d'une requête de génération de code. C'est ce qu'on appelle l'injection de prompt indirecte. Le développeur, pensant gagner du temps, valide la suggestion et installe un composant compromis sans vérification préalable.
Le typosquatting passe au niveau supérieur
Cette technique facilite grandement le typosquatting. Auparavant, un attaquant devait espérer qu'un humain fasse une faute de frappe en saisissant une commande. Aujourd'hui, c'est l'IA qui commet l'erreur pour lui, influencée par des références empoisonnées trouvées sur le web. Comme l'IA présente la solution avec une assurance pédagogique, le sens critique de l'utilisateur baisse d'un cran. Le malware n'est plus dans la documentation, il arrive dans la machine au moment où le développeur exécute la suggestion générée.
Un défi pour la cybersécurité logicielle
La difficulté majeure est que cette attaque est purement textuelle. Les outils de scan de vulnérabilités cherchent du code dangereux, pas des explications trompeuses en langage naturel. Tant que les modèles d'IA ne sauront pas distinguer une documentation légitime d'une tentative de manipulation sémantique, la chaîne d'approvisionnement logicielle restera vulnérable à cette forme de gaslighting numérique. La sécurité repose désormais sur la véracité de l'information ingérée par les machines.
On atteint ici les limites de l'automatisation du développement. Faire confiance à un LLM pour choisir ses dépendances est devenu un risque de sécurité majeur. Cette faille montre que le maillon faible n'est plus seulement l'humain qui tape du code, mais l'outil qui lui souffle les réponses. On risque de voir apparaître des systèmes de vérification de réputation de documentation.
Source : The Register

Intel's impressive Core Ultra 5 250KF Plus is now available in limited quantities — Don't miss an "incredible deal for content creators who moonlight as gamers"
Intel Core Ultra 200S Plus processor reverse side showing LGA 1851 contacts

A look at the new Core Ultra 200S Plus desktop processor held between two fingers.
GitHub adds AI-powered bug detection to expand security coverage
RSAC 2026 Proved the Industry Agrees on the Problem — Now Comes the Hard Part
Agentic AI dominated RSAC 2026, but security leaders warn governance is lagging. Here’s why discovery isn’t enough — and where control must evolve.
The post RSAC 2026 Proved the Industry Agrees on the Problem — Now Comes the Hard Part appeared first on TechRepublic.
Inside RSA 2026: Security Leaders Grapple With AI’s Growing Role and Risks
RSA Conference 2026 spotlights AI in cybersecurity, from SOC automation to governance challenges, as experts weigh trust, control, and risk.
The post Inside RSA 2026: Security Leaders Grapple With AI’s Growing Role and Risks appeared first on TechRepublic.