Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

1,5 To de VRAM sur un Mac Studio - Le RDMA Thunderbolt 5 qui change la donne

Par : Korben
21 décembre 2025 à 08:04

Vous rêvez de faire tourner des modèles d'IA de 600 milliards de paramètres sur votre bureau sans avoir à vendre vos enfants ? Hé bien Jeff Geerling vient de tester un truc qui va vous faire baver, je pense. En tout cas, moi ça m'énerve (dans le bon sens du terme hein...) !

Apple lui a prêté 4 Mac Studios M3 Ultra pour tester une nouvelle fonctionnalité qui débarque avec macOS 26.2 et qui s'appelle le RDMA over Thunderbolt 5. En gros, c'est une techno qui permet à plusieurs Macs de partager leur mémoire unifiée comme si c'était un seul gros pool de RAM et du coup, au lieu d'avoir 4 machines séparées avec chacune leur mémoire, vous vous retrouvez avec 1,5 To de VRAM partagée accessible par toutes les machines.

Le setup de Jeff c'est deux Mac Studios avec 512 Go de RAM chacun à environ 11 700 dollars pièce, plus deux autres avec 256 Go à 8 100 dollars. Total de la douloureuse : environ 40 000 dollars. Ça pique, c'est clair, mais attendez de voir ce que ça fait.

Le truc qui change vraiment la donne avec le RDMA c'est la latence. Avant, quand un Mac devait accéder à la mémoire d'un autre Mac via le réseau, ça prenait environ 300 microsecondes. Avec cette nouvelle implémentation Thunderbolt 5, on tombe à moins de 50 microsecondes. Ça paraît rien comme ça, mais pour faire tourner ce genre de modèles, c'est énorme.

Jeff a fait tourner des benchmarks classiques et les résultats sont plutôt impressionnants. Sur Geekbench 6, le M3 Ultra explose le Dell Pro Max et l'AMD Ryzen AI Max+ 395 en mono et multi-coeur. Mais le plus fou c'est sur le benchmark HPL en virgule flottante 64 bits où c'est le seul système desktop testé à dépasser 1 Téraflop, avec presque le double des performances du Nvidia GB10.

Côté modèles IA massifs, le cluster fait tourner Qwen3 235B à 32 tokens par seconde avec Exo, DeepSeek V3.1 et ses 671 milliards de paramètres scale correctement sur les 4 machines, et même Kimi K2 Thinking avec ses 1000 milliards de paramètres tourne à environ 30 tokens par seconde. Tout ça en consommant environ 250 watts max et en faisant quasi aucun bruit.

Par contre, c'est encore du logiciel en beta et ça se sent. Par exemple, Jeff a eu pas mal de crashs pendant ses tests HPL sur Thunderbolt avec des instabilités qui ont nécessité des redémarrages fréquents, ou encore le fait que seulement 4 Macs sont supportés pour l'instant malgré les 5 ports Thunderbolt 5 disponibles. Ensuite y'a le problème de l'administration à distance qui est inexistante, car impossible de mettre à jour macOS via SSH, donc faut se taper l'interface graphique à la main sur chaque machine.

Bref, c'est hyper prometteur comme techno, surtout pour ceux qui veulent faire tourner des LLM monstrueux sur leur bureau sans monter une salle serveur mais faudra attendre que le logiciel murisse un peu avant de claquer vos 40 000 balles de PEL dedans.

Source

SkillsMP - Plus de 26 000 skills Claude à portée de clic

Par : Korben
18 décembre 2025 à 06:24

Vous utilisez Claude Code ? Alors vous savez probablement que l'outil d'Anthropic peut être étendu avec des "Skills", c'est à dire des modules qui ajoutent des capacités supplémentaires à Claude. Y'a un fichier SKILL.md, des scripts optionnels, et comme ça, votre assistant sait faire de nouvelles choses. Sauf que pour trouver ces skills quand on n'a pas envie de se les palucher à la main (ou à l'IA), faut aller les chercher dans les repos GitHub, fouiller les README, comparer les étoiles... La flemme quoi...

C'est la raison d'être de SkillsMP qui vient résoudre ce problème. C'est en fait un marketplace communautaire (pas affilié à Anthropic) qui agrège plus de 26 000 skills Claude provenant de dépôts GitHub publics, le tout présenté dans une interface qui ressemble à un App Store, avec des catégories, des stats, et tout le toutim.

Je vous préviens d'emblée, le site est un peu bordélique. Entre les filtres, les catégories (Développement, Outils, Data & AI, DevOps...), les tris par popularité ou mise à jour récente, et l'interface du tur-fu, faut un peu tâtonner au début. Mais une fois qu'on a pigé comment ça marche, c'est vraiment cool de pouvoir explorer tout ça au même endroit.

Le truc intéressant c'est que SkillsMP filtre automatiquement les repos de mauvaise qualité. Pour qu'un skill apparaisse, il faut minimum 2 étoiles sur GitHub. Ça évite de se retrouver avec des trucs abandonnés ou mal foutus. Y'a même un badge "Marketplace Ready" pour les skills qui ont un fichier marketplace.json bien configuré.

Pour installer un skill que vous avez trouvé, vous avez alors 3 options. Soit vous le mettez dans ~/.claude/skills/ pour l'avoir disponible partout sur votre machine. Soit vous le collez dans .claude/skills/ dans votre projet si vous voulez le partager avec votre équipe via Git. Soit vous passez par l'installation plugin avec une commande du genre /plugin marketplace add anthropics/skills.

La différence avec les commandes slash c'est que les skills sont "model-invoked". Ça veut dire que c'est Claude qui décide tout seul quand les utiliser en fonction du contexte de votre demande. Vous n'avez donc pas besoin de taper /truc pour activer un skill, il se déclenche automatiquement quand c'est pertinent.

Attention quand même, comme toujours avec du code open source venu d'Internet, les développeurs de SkillsMP le précisent bien, ils filtrent les repos pourris mais ça reste votre responsabilité de vérifier ce que vous installez. Un skill a accès à pas mal de trucs sur votre machine, donc prenez 2 minutes pour auditer le code avant d'installer un truc d'un développeur inconnu.

Bref, si vous passez beaucoup de temps sur Claude Code et que vous voulez découvrir ce que la communauté a créé comme extensions, SkillsMP c'est un bon point de départ. C'est gratuit, y'a pas besoin de compte, et ça vous évite de passer des heures à fouiller GitHub manuellement.

Un grand merci à Lorenper pour le partage !

Nemotron 3 - Nvidia débarque dans l'open source et crache du token comme jamais

Par : Korben
16 décembre 2025 à 11:42

Vous voulez faire tourner un modèle d'IA en local sans avoir besoin d'un serveur de la NASA ? Eh bien Nvidia vient de lâcher une bombe avec Nemotron 3, une famille de modèles open source plutôt impressionnant et surtout, ils ont publié leurs données d'entraînement afin de jouer la transparence totale. Chapeau !

Le modèle phare de cette nouvelle famille s'appelle Nemotron 3 Nano et c'est un modèle de 30 milliards de paramètres, mais attention, il n'en active que 3,5 milliards à la fois grâce à une architecture hybride qui mélange du Mamba-2 et du Mixture-of-Experts ( MoE ). Ça permet de garder des performances de ouf tout en restant léger niveau ressources.

Sous le capot, Nvidia a également mis le paquet puisque le modèle a été entraîné sur 25 trillions de tokens. J'ai bien dit "trillions"... Pour vous donner une idée, les données d'entraînement incluent du Common Crawl de 2013 à 2025, du code dans 43 langages différents, des articles scientifiques, et une tonne de données synthétiques générées par d'autres modèles. Et tout ça, Nvidia l'a rendu public donc vous pouvez télécharger les datasets sur Hugging Face et vérifier par vous-même ce qui a servi à entraîner le bouzin.

Côté performances, Nemotron 3 Nano se défend plutôt bien . Sur les benchmarks de raisonnement mathématique comme AIME25, il atteint 99,2% quand on lui donne accès à des outils. Sur le coding avec LiveCodeBench, il tape du 68,3%, ce qui le place devant Qwen3-30B. Et pour les tâches d'agent logiciel genre SWE-Bench, il monte à 38,8%. Pas mal pour un modèle qu'on peut faire tourner sur du matos grand public.

D'ailleurs, parlons du matos justement. Nemotron 3 Nano tourne sur des cartes comme la H100, la A100, ou même la future RTX PRO 6000 et supporte jusqu'à 1 million de tokens en contexte si vous avez assez de VRAM. Et niveau vitesse, Nvidia annonce un débit de tokens 4 fois supérieur à la génération précédente, avec 60% de tokens de raisonnement en moins. C'est donc exactement ce que tout le monde demande à saoir du token qui sort vite pour les workflows agentiques.

Maintenant, pour l'utiliser, c'est hyper simple. Il est dispo sur Hugging Face, et vous pouvez le lancer avec Transformers, vLLM, TensorRT, ou même llama.cpp. Y'a même un mode "thinking" qu'on peut activer ou désactiver selon si on veut du raisonnement poussé ou des réponses rapides.

Pour ma part, je l'ai testé à l'aide d'Ollama comme ceci :

ollama run nemotron-3-nano:30b

J'ai trouvé que vitesse de génération était vraiment impressionnante, ça débite beaucoup plus qu'un Llama 3 qui est de taille équivalente. Après, je suis sur un Mac M4 avec 128 Go de RAM, donc je suis plutôt bien loti mais j'ai trouvé ce modèle vraiment très rapide. Je pense que je vais vraiment m'en servir pour des trucs comme de la qualification, du résumé, de l'analyse ce genre de choses.

A voir maintenant si en français il s'en sort bien sur les tournures de phrases. Quoi qu'il en soit pour du développement et des workflows agentiques, il n'y a pas photo, ça va être mon nouveau modèle par défaut quand j'ai besoin de choses en local.

La famille Nemotron 3 ne se limite pas au Nano évidemment. Y'a aussi le Super avec environ 100 milliards de paramètres pour les applications multi-agents, et l'Ultra avec 500 milliards pour les tâches vraiment complexes. Ces deux-là arriveront au premier semestre 2026 donc faudra encore être un peu patient. Nvidia a aussi sorti des bibliothèques comme NeMo Gym pour l'entraînement et NeMo RL pour le fine-tuning.

Jensen Huang, le patron de Nvidia, a aussi dit un truc intéressant lors de l'annonce : "L'innovation ouverte est le fondement du progrès de l'IA." Venant d'une boîte qui a longtemps joué la carte proprio sur ses technos, je trouve que c'est un sacré virage et des entreprises comme Accenture, Deloitte, Oracle, Palantir, ou même Cursor sont déjà en train d'intégrer Nemotron dans leurs produits.

Ce qui est cool aussi, c'est que le modèle supporte 24 langues officielles de l'UE plus une dizaine d'autres comme l'arabe, le chinois ou le japonais et côté code, il gère Python, C++, Java, Rust, Go, et même du CUDA. Bref, c'est plutôt polyvalent.

Voilà, donc si vous cherchez un modèle open source sérieux avec des données d'entraînement transparentes et une vitesse de génération qui arrache, Nemotron 3 Nano mérite clairement le coup d’œil !

Source

PROMPTFLUX - Le malware qui demande à Gemini comment échapper aux antivirus

Par : Korben
7 novembre 2025 à 09:15

Bon vous savez tous comment marche votre antivirus. Il détecte un malware, il le bloque, et tout revient à la normale.

Mais si je vous disais que maintenant, c’est parfaitement possible qu’une heure plus tard le même malware se repointe, sauf que c’est plus le même, parce que son code a changé. Car entre temps, il a demandé à Google Gemini de le réécrire…

Bien c’est pas de la science-fiction, hein, c’est ce que décrit un rapport du Google Threat Intelligence Group (GTIG) qui nous présente une nouvelle génération de malwares qui intègrent des LLM directement dans leur exécution.

Plus de génération statique du code, c’est le malware lui-même qui appelle une API LLM pendant qu’il tourne, demande des modifications, se réécrit, et repart faire sa besogne.

Les deux exemples les plus marquants s’appellent PROMPTFLUX et PROMPTSTEAL .

PROMPTFLUX, c’est un dropper en VBScript qui appelle l’API Gemini pour obfusquer son propre code. Il se réécrit dans la base de registre Windows pour persister au reboot, puis demande à Gemini de générer de nouvelles variantes d’obfuscation. Son module interne s’appelle “Thinking Robot” et il interroge Gemini régulièrement du genre “Comment contourner l’antivirus X ? Propose des variantes de mon code pour éviter la signature Y.

Gemini lui répond, le malware applique le conseil, se modifie, et se relance.

Comme les antivirus détectent les malwares par signatures ou comportements connus, si le malware change toutes les heures, les signatures deviennent immédiatement obsolètes. L’antivirus a alors toujours un coup de retard. Et PROMPTFLUX n’a même pas besoin d’un serveur C2 pour télécharger de nouvelles variantes puisqu’il génère ses propres variantes localement en demandant à Gemini.

GTIG estime que PROMPTFLUX est encore en développement et les échantillons analysés ne montrent pas de capacité réelle à compromettre un réseau. Mais ça reste une preuve de concept active… En gros, quelqu’un, quelque part teste cette approche.

PROMPTSTEAL, lui par contre, est déjà opérationnel. GTIG l’attribue à APT28 (FROZENLAKE), un groupe lié au renseignement militaire russe (GRU). Le CERT-UA l’a documenté sous le nom LAMEHUG en juillet dernier et c’est la première observation d’un malware qui interroge un LLM en opération réelle.

PROMPTSTEAL de son côté est écrit en Python. Il utilise l’API Hugging Face pour accéder au modèle Qwen2.5-Coder-32B-Instruct . Le malware envoie des prompts encodés en Base64, genre “récupère les infos système” ou “trouve les documents sensibles” et le LLM génère des commandes Windows d’une ligne qui sont ensuite exécutées localement par le malware. Ensuite ce dernier collecte les données et les exfiltre tranquillement.

L’astuce donc, c’est que le malware ne contient plus de commandes en dur. Il les génère à la volée selon le contexte comme ça, si l’environnement change, il demande de nouvelles commandes adaptées. Plus de pattern fixe à détecter et chaque exécution est différente.

GTIG mentionne aussi d’autres exemples tels que FRUITSHELL, un reverse shell PowerShell public qui contient des prompts pour contourner les protections LLM ou encore PROMPTLOCK, un concept de ransomware en Go qui utilise un LLM pour générer des scripts Lua de chiffrement.

Il y a aussi QUIETVAULT, un voleur de tokens JavaScript qui cible GitHub et NPM, puis exfiltre les résultats via des repos publics.

Tous ces malwares partagent la même idée : intégrer un LLM dans la chaîne d’exécution. Génération, obfuscation, commandes dynamiques, recherche de secrets… Le LLM devient un composant actif du malware !

Le rapport décrit aussi comment les attaquants contournent les protections des LLM à base d’ingénierie sociale dans les prompts. L’attaquant se fait passer le plus souvent pour un étudiant en sécurité, un participant à un CTF, ou encore un chercheur parfaitement légitime. Le LLM, configuré pour aider, répond alors à toutes les demandes.

Dans un cas documenté par GTIG, une tentative a mal tourné pour les attaquants. On le sait car dans les logs de leurs échanges avec le LLM, GTIG a trouvé des domaines C2 et des clés de chiffrement en clair. Les attaquants avaient oublié de nettoyer leurs tests et c’est grâce à ça que GTIG a récupéré l’accès à leur infrastructure puis l’a neutralisée.

Le rapport liste aussi les groupes étatiques actifs comme UNC1069 (MASAN) , lié à la Corée du Nord, qui utilise les LLM pour générer des deepfakes et voler des cryptoactifs. Ou encore UNC4899 (PUKCHONG) , aussi nord-coréen, qui emploie les modèles pour développer des exploits et planifier des attaques sur les supply chains.

De son côté, APT41 , un groupe étatique chinois, s’en sert pour obfusquer du code. Et le groupe iranien APT42 , a même tenté de construire un agent SQL qui traduirait des requêtes en langage naturel vers des commandes d’extraction de données sensibles. GTIG les a bloqué en coupant les comptes qu’ils utilisaient.

Et sur le marché noire, ce genre d’outils et de services multi-fonctions ont le vent en poupe. Génération de campagne de phishing, création de deepfakes, génération automatique de malwares, abonnements avec accès API…etc.

Leur modèle commercial copie celui des services légitimes avec une version gratuite basique pour gouter et un abonnement payant pour les fonctions avancées, avec des communautés Discord pour le support. Ça permet d’abaisser la barrière d’entrée pour les attaquants les moins expérimentés.

Côté défense maintenant, les recommandations sont assez classiques. Pensez à surveiller l’activité anormale des clés API qui pourraient être volées. Détectez les appels inhabituels à des services LLM externes depuis les processus. Contrôlez l’intégrité des exécutables et protégez tout ce qui est “secrets” sur les hôtes.

N’oubliez pas non plus de ne jamais, ô grand jamais, exécuter aveuglément des commandes générées par un modèle IA (je vous l’ai assez répété).

Voilà, tous ces exemples actuels sont expérimentaux mais le signal est donné et il est plutôt limpide : l’IA est en train de rendre les malwares plus virulents en leur permettant de s’adapter !

Source

MocoLlamma - Ollama gérable depuis iPhone, iPad et Vision Pro

Par : Korben
7 novembre 2025 à 09:00

Vous avez installé Ollama sur votre Mac et vous êtes le plus joyeux de tous les mammifères car vous faites tourner Llama 3.x en local comme un chef. Et puis un soir, posé dans votre canapé avec votre iPad de bourgeois capitaliste, vous vous dites que ce serait bien de pull un nouveau modèle. Et là, vous réalisez qu’il va falloir sortir le MacBook, ouvrir un terminal, taper ollama pull mistral, attendre et attendre… Grosse flemme non ?

Hé oui, Ollama reste un outil en ligne de commande. C’est génial pour les devs, mais galère pour le reste et vous avez beau avoir de la puissance de calcul dans votre poche avec un iPhone ou un iPad, c’est impossible de gérer vos modèles sans SSH et sans Terminal.

Heureusement, MocoLlamma vient combler ce fossé. C’est une app de gestion Ollama pour macOS, iOS, iPadOS, et même visionOS si vous avez ce truc. C’est donc une vraie app native avec interface graphique, développée en Swift et SwiftUI dans laquelle ous ajoutez vos serveurs Ollama, et où vous gérez vos modèles, et vous testez vos LLM via un chat basique.

L’app s’organise autour de trois onglets. Le premier, Server, vous permet d’ajouter et de switcher entre plusieurs serveurs Ollama. Vous pouvez ainsi renommer chaque serveur, gérer les connexions, bref, tout ce qu’il faut pour jongler entre votre Mac local, votre serveur, ou votre instance cloud si vous en utilisez une.

Le second onglet, Model, affiche tous les modèles disponibles sur le serveur sélectionné. Vous voyez ainsi les infos de chaque modèle, vous pouvez les trier par taille, les ajouter ou les supprimer. Comme ça, plus besoin de taper ollama list pour savoir ce qui tourne. Tout est là, visuellement, avec la possibilité de gérer vos modèles d’un tapotage bien senti.

Le troisième onglet, Chat, permet de tester rapidement un modèle. C’est volontairement basique et l’idée n’est pas de remplacer ChatGPT ou Open WebUI, mais juste de vérifier qu’un modèle répond correctement. Genre, vous venez de pull Qwen 3, et vous voulez voir s’il fonctionne avant de l’intégrer dans votre workflow. Hop, quelques questions rapides dans le chat, et vous savez.

Il existe bien sûr des tonnes d’alternatives de GUI pour Ollama comme Open WebUI , LM Studio , Jan , GPT4All … Mais aucune ne supporte nativement visionOS ou les iPad / iPhone. Alors que MocoLlamma, si.

C’est actuellement la seule app qui vous permet de gérer vos LLM locaux depuis ces appareils Apple… C’est assez niche c’est vrai mais ça peut rendre service.

Le nom “MocoLlamma” est ce qu’on appelle un mot valise de “Model”, “Control”, “Ollama”, et “Manage”. C’est moche de ouf, c’est pas super à retenir, mais au moins ça décrit exactement ce que fait l’app.

Y’a la version gratuite qui est disponible sur GitHub, mais uniquement pour macOS (c’est sous license MIT) et la version payante, à 1,99 dollars sur l’App Store, supporte macOS, iOS, iPadOS, et visionOS. La différence principale pour l’app macOS c’est surtout les mises à jour automatiques. Vous payez 2 balles pour le confort.

Et là, un point crucial, sachez que MocoLlamma ne collecte AUCUNE donnée utilisateur. Bref, cette appli vient combler le trou qui se trouve entre “j’ai installé Ollama” et “je peux gérer mes modèles depuis mon iPhone”. Si vous avez ce besoin, c’est donc à considérer.

Merci à Lorenper pour la découverte.

EuroLLM - Le LLM européen qui tourne sur votre laptop

Par : Korben
6 novembre 2025 à 09:00

Faire tourner un modèle de langage européen sur votre machine sans avoir besoin d’un serveur surpuissant branché sur une centrale nucléaire, c’est maintenant possible, les amis ! Hé oui, EuroLLM vient de prouver qu’on pouvait faire tourner un modèle à 9 milliards de paramètres dans un peu moins de 6 GB de RAM sur un simple laptop.

Une seule commande Ollama , et c’est parti mon kiki !!!

Bien sûr, il est encore loin des gros modèles proprio comme GPT-5 mais c’est le enfin le premier LLM européen que VOUS pouvez faire tourner en local. C’est respectueux de votre vie privée, des droits d’auteurs et c’est gratuit !

Un projet 100% européen

EuroLLM, c’est en réalité une coalition de labos européens : Instituto Superior Técnico (Lisbonne), University of Edinburgh , Université Paris-Saclay , Unbabel , et d’autres et c’est financé par Horizon Europe et l’ EuroHPC , et ce modèle supporte les 24 langues officielles de l’UE, plus 11 langues supplémentaires (arabe, chinois, hindi, japonais, coréen, russe, turc…).

EuroLLM-9B , le modèle de base, a été entraîné sur 4 trillions de tokens avec le supercalculateur MareNostrum 5 à Barcelone (400 GPUs Nvidia H100) et l’architecture utilise du Grouped Query Attention, RoPE, SwiGLU et RMSNorm, comme tout LLM moderne qui se respecte.

Mais il existe d’autres versions comme EuroLLM-1.7B pour smartphones et bientôt EuroLLM-22B pour plus de puissance, ainsi qu’une version vision-language (EuroVLM-9B) et un modèle Mixture-of-Experts (EuroMoE-2.6B).

Et surtout c’est sous licence Apache 2.0. Donc l’usage commercial est autorisé, vous pouvez le fine-tuner sur vos données, et les modifications sont libres, sans redevance à payer. Ce n’est pas la première fois qu’il y a des LLM européens mais ils étaient soit sous licence trop restrictives ou un peu trop lourd pour être utilisé localement par les gens normaux comme vous et moi.

Maintenant comment l’installer ?

La méthode la plus simple, c’est via Ollama :

ollama run hf.co/bartowski/EuroLLM-9B-Instruct-GGUF

Ollama télécharge le modèle en version GGUF (format optimisé CPU/GPU), et vous pouvez commencer à discuter. Il existe aussi une version pré-packagée alibayram/erurollm-9b-instruct (attention, erurollm avec un “u”), quantized en Q4_K_M pour réduire la taille à 5,6 GB.

Si vous préférez Python et Hugging Face Transformers :

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "utter-project/EuroLLM-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

inputs = tokenizer("Explique-moi ce qu'est un LLM en français simple", return_tensors="pt")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0]))

Une fois téléchargé, le modèle reste en cache local. Vous pouvez alors l’utiliser offline, sans connexion internet. Et pour les machines avec moins de RAM, la version 1.7B tourne même sur des Raspberry Pi :

ollama run cas/eurollm-1.7b-instruct-q8

Alors pourquoi c’est important ?

EuroLLM ouvre l’IA européenne à des cas d’usage impossibles avec des API cloud. Par exemple une administration publique ne peut pas envoyer ses documents dans le cloud d’OpenAI… ce serait tout livrer aux américains. Elle peut donc fine-tuner EuroLLM localement. Un journaliste en zone sensible sans connexion fiable peut aussi embarquer le modèle sur son ordi portable. Même un chercheur qui manipule des données médicales confidentielles peut le faire en toute confiance avec EuroLLM puisque tout reste sur sa machine.

C’est cool quand même que l’Europe nous file un modèle gratuit qu’on peut installer chez soi et utiliser sans limite. Après c’est vrai que EuroLLM ne bat pas GPT-4 (pas encore) mais il est suffisamment bon pour 80% des cas d’utilisation réels tels que des résumés, de la traduction, des questions-réponses simples, de la génération de code basique.

La roadmap prévoit d’ajouter de la vision et de la voix aux modèles. D’ailleurs, comme je vous le disais, EuroVLM-9B est déjà en preview sur Hugging Face , ce qui ouvre la voie à de l’OCR multilingue, de l’analyse de documents visuels, ou encore à la création d’assistants vocaux dans n’importe quelle langue…

Voilà j’ai trouvé ça cool à tester et un grand merci à Letsar pour le partage !

Il connecte Animal Crossing à l'IA en hackant la mémoire de sa GameCube

Par : Korben
10 septembre 2025 à 07:09

20 ans plus tard, les vieilles consoles continuent de nous surprendre… La preuve avec ce hack complètement barré qui transforme une GameCube de 2001 en client pour nos IA modernes.

Josh Fonseca a en effet réussi l’exploit de connecter ChatGPT à Animal Crossing via l’émulateur Dolphin. Pas de mod de la cartouche, pas de modification du code original, mais juste du bon vieux Python qui lit et écrit dans la RAM émulée pendant que le jeu tourne.

Hé oui, le mec n’a même pas touché une seule ligne du code original du jeu. Il a “simplement” identifié les adresses mémoire où le jeu stocke les dialogues (0x81298360 pour les curieux) et remplacé le texte à la volée. L’émulateur Dolphin pense faire tourner les dialogues d’origine, mais en fait il affiche du contenu généré par une IA qui tourne sur un serveur cloud.

Techniquement, c’est malin comme approche puisque la GameCube n’a que 24 MB de RAM et un processeur PowerPC à 485 MHz. Il lui est donc impossible de faire tourner un LLM dessus. Du coup il a créé une sorte de pont mémoire entre l’émulateur et le LLM. Son script Python surveille cette adresse en mémoire via le processus Dolphin, récupère le contexte du dialogue, l’envoie à l’IA, et réinjecte la réponse dans la mémoire émulée.

Ce qui complique vraiment les choses, c’est qu’Animal Crossing n’utilise pas du texte brut pour ses dialogues. Le jeu a son propre langage de contrôle avec des codes pour les pauses, les émotions, les effets sonores. Un peu comme du HTML mais version Nintendo 2001, ce qui fait qu’il a fallu créer deux IA : une première qui génère le dialogue créatif (le “Writer AI”) et une autre qui ajoute tous les codes techniques (le “Director AI”).

Voici un extrait :

# A small sample of the control codes I had to encode/decode
CONTROL_CODES = {
 0x00: "<End Conversation>",
 0x03: "<Pause [{:02X}]>", # e.g., <Pause [0A]> for a short pause
 0x05: "<Color Line [{:06X}]>", # e.g., <Color Line [FF0000]> for red
 0x09: "<NPC Expression [Cat:{:02X}] [{}]>", # Trigger an emotion
 0x59: "<Play Sound Effect [{}]>", # e.g., <Play Sound Effect [Happy]>
 0x1A: "<Player Name>",
 0x1C: "<Catchphrase>",
}

# The magic byte that signals a command is coming
PREFIX_BYTE = 0x7F

Je trouve ça cool comme projet car les joueurs rêvent depuis longtemps de dialogues plus variés dans Animal Crossing. En effet, si comme moi, vous n’êtes pas pro-gamer sur Animal Crossing, vous ignorez surement que Nintendo limite les villageois à 8 types de personnalité, ce qui rend les conversations hyper répétitives après quelques heures de jeu.

Avec ce hack, les villageois peuvent donc maintenant discuter de l’actualité mondiale, critiquer Tom Nook sur ses pratiques immobilières douteuses, ou même avoir des conversations philosophiques sur le sens de la vie dans votre village virtuel. Le mod est sur Github pour ceux qui veulent tester sur émulateur.

Notez que la communauté de décompilation d’Animal Crossing a joué un rôle crucial dans ce projet car sans leur travail pour convertir le code PowerPC en C lisible, identifier ces adresses mémoire spécifiques aurait été un cauchemar. C’est grâce donc à eux que le développeur a pu comprendre comment le jeu gère ses dialogues en interne.

Bref, je trouve ça assez marrant qu’une console vielle de +20 ans capable de fonctionner totalement offline (car à l’époque Nintendo était allergique à Internet), soit finalement indirectement “connectée” (via l’émulateur) pour utiliser ce qui se fait de plus hype en ce moment, à savoir l’IA (les LLMs plus exactement).

Comme je vous le disais, pour l’instant, ce hack fonctionne sur la version GameCube originale du jeu via l’émulateur Dolphin. L’auteur mentionne qu’une adaptation sur du vrai matériel serait possible avec le Broadband Adapter officiel, mais nécessiterait beaucoup plus de travail. Les versions ultérieures sorties sur DS, Wii ou Switch utiliseraient une architecture mémoire différente, mais techniquement, rien n’empêche d’adopter une approche similaire.

Comme quoi, avec un peu d’ingéniosité, on peut moderniser n’importe quel jeu rétro !

Memflix – Transformez vos données en vidéos MP4 consultables instantanément

Par : Korben
27 juin 2025 à 15:08

Ça va, pas trop chaud ? Alors tant mieux, parce que je vais vous faire avoir une petite suée tellement ce truc est cool ! Ça s’appelle Memflix et c’est une bibliothèque JavaScript qui transforme vos documents texte en… fichiers vidéo MP4 ! Oui, vous avez bien lu. Et le plus fou, c’est que vous pouvez ensuite faire des recherches sémantiques ultra-rapides dans ces vidéos.

L’idée est tellement simple qu’elle en devient géniale car au lieu de stocker vos données dans une base de données traditionnelle, Memflix encode tout dans des QR codes qui sont ensuite intégrés frame par frame dans une vidéo. Résultat ? Un stockage 10 fois plus efficace qu’une base de données classique et des recherches qui prennent moins d’une seconde, même sur des millions de chunks de texte.

DeepTeam - Un framework red teaming pour sécuriser vos LLM

Par : Korben
11 juin 2025 à 07:34

Vous savez ce qui me fait marrer ? Les sociétés qui proposent de l’IA sur le web passent leur temps a bien verrouiller leurs serveurs contre les attaques classiques, alors que pendant ce temps-là, y’a leur IA qui se fait jailbreaker par un simple “ignore toutes tes instructions précédentes”.

Et c’est un problème car les LLM (Large Language Models) sont partout ! Dans nos chatbots, nos agents IA, nos pipelines RAG…etc mais qui teste réellement leur sécurité ? Hé bien pas encore assez de monde à mon goût, et c’est bien le problème. Même les modèles les plus récents comme GPT-4o ou Claude restent vulnérables à des attaques adversariales relativement simples, avec des taux de réussite de 100% dans certains cas.

Qwen3 - Un équivalent de o3-mini capable de tourner sur votre PC

Par : Korben
29 avril 2025 à 15:56

Je suis content d’avoir investi dans un Mac Studio pour faire tourner des modèles IA un peu plus balèzes du coup, je surveille un peu ce qui sort en ce moment comme modèles, notamment pour coder, et voilà que la famille de modèles Qwen3 vient d’être officiellement lancée, et franchement, ça a l’air plutôt pas mal ! Surtout si vous aimez jouer avec du LLM sans passer par les API payantes de géants de la tech comme OpenAI.

Language AI Pioneer DeepL Targets APAC Businesses With Pro Translation Options

Par : Ben Abbott
19 avril 2024 à 15:20
AI-native language translation application DeepL Translate is launching into Australia and Singapore following regional forays into Japan and South Korea. Founder and CEO Jarek Kutylowski said it is targeting APAC businesses that require more natural language translations.

Time for APAC Region to Build Its Own AI Foundation Models, Says CSIRO

Par : Ben Abbott
19 avril 2024 à 14:47
Most AI foundation models are being developed in markets like the U.S. and China. Research from Australia asks whether other countries should be building sovereign AI models for citizens and businesses.
❌
❌