Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Google lance Gemini Embedding 2, un modèle qui comprend texte, image, vidéo et audio en même temps

Google vient de lancer Gemini Embedding 2, son premier modèle d'embedding nativement multimodal. Texte, images, vidéo, audio et documents sont projetés dans un même espace vectoriel, ce qui permet de faire de la recherche sémantique croisée entre différents types de contenus.

Un seul modèle pour tout indexer

Jusqu'à présent, les modèles d'embedding se limitaient au texte. Vous vouliez indexer des images ou de la vidéo, il fallait un autre pipeline. Gemini Embedding 2 fait tout d'un coup : vous lui envoyez du texte, des images (jusqu'à 6), de la vidéo (jusqu'à 120 secondes) ou de l'audio (jusqu'à 80 secondes), et il vous renvoie un vecteur dans le même espace. Le modèle gère plus de 100 langues et prend en charge jusqu'à 8 192 tokens en entrée pour le texte.

Côté technique, le modèle utilise le Matryoshka Representation Learning, ce qui permet de choisir la taille des embeddings entre 128 et 3 072 dimensions. Google recommande 768 dimensions pour un bon compromis entre qualité et stockage, ce qui divise par quatre l'espace disque par rapport à la taille maximale.

Les tarifs et la concurrence

Le texte est facturé 0,20 dollar par million de tokens, avec un mode batch à moitié prix. Les images montent à 0,45 dollar, l'audio à 6,50 dollars et la vidéo à 12 dollars par million de tokens. Un palier gratuit est disponible pour tester.

Côté performances, Google affiche de bons scores sur les benchmarks MTEB : 69,9 en multilingue et 84,0 en code. Mais pour du texte seul, OpenAI reste bien moins cher avec son text-embedding-3-small à 0,02 dollar par million de tokens, soit dix fois moins.

Le modèle est disponible via l'API Gemini et Vertex AI, et compatible avec LangChain, LlamaIndex, Weaviate ou ChromaDB.

Le vrai argument de Google ici, c'est le multimodal. Si vous avez besoin d'indexer des catalogues produits avec photos et descriptions dans le même vecteur, ou de faire de la recherche dans des archives vidéo, il n'y a pas d'équivalent chez OpenAI pour le moment.

Mais pour du texte pur, la différence de prix est quand même importante. On attend de voir comment ça se comporte en production, et si les scores MTEB se confirment sur des cas d'usage réels.

Source : Blog Google

BetterEU veut passer toute la réglementation européenne au crible de l'IA

Un projet open source vient de lâcher une IA sur les 41 300 règlements européens adoptés depuis 1958. L'outil, qui tourne sur Grok 4.1, rend un verdict binaire pour chaque texte : à garder ou à supprimer. Les résultats défilent en direct sur bettereu.com.

41 300 textes passés à la moulinette

Le principe est assez bourrin. BetterEU prend chaque règlement européen, du plus ancien, publié en 1958, au plus récent publié il y a quelques semaines, et le soumet à Grok avec un prompt unique. L'IA doit trancher : KEEP ou DELETE.

Aucune nuance, pas de peut-être, juste un verdict sec. Le tout est diffusé en temps réel sur le site, avec un graphique interactif qui montre la progression année par année. Les données se rafraîchissent toutes les cinq secondes, et le coût de l'opération en dollars s'affiche en direct. Le code source est ouvert, le prompt aussi. N'importe qui peut aller vérifier comment l'IA raisonne.

La Commission veut aussi simplifier

Ce projet tombe à un moment où l'Union européenne elle-même reconnaît que sa réglementation est devenue un problème. La Commission a lancé en 2026 son programme de travail le plus dérèglementaire de son histoire : sur 47 initiatives prévues, 25 portent sur la simplification.

L'objectif affiché est de réduire la charge administrative des entreprises de 25 %, ce qui représenterait une économie de 37,5 milliards d'euros d'ici 2029. Et l'AI Act, qui entre en application en août 2026, fait lui-même l'objet d'un Digital Omnibus pour alléger ses propres règles. Quand le législateur simplifie la loi qui encadre l'IA pendant qu'une IA propose de simplifier les lois, on est en plein dans le sujet.

Un exercice quand même un peu limité

Évidemment, demander à une IA de décider si un règlement doit être gardé ou supprimé, c'est un peu court. Le droit européen est un empilement de textes qui se référencent les uns les autres, et supprimer un règlement peut en déstabiliser dix autres.

BetterEU ne tient pas compte de ces interdépendances, et le verdict binaire ne dit rien des articles à amender plutôt qu'à supprimer.

Mais l'exercice a quand même un intérêt : il rend visible l'ampleur du corpus réglementaire européen. 41 300 textes en soixante-sept ans, ça donne une idée de la masse à laquelle les entreprises et les citoyens sont soumis.

Bref, l’idée est rigolote, et on imagine bien le même traitement appliqué à la législation française. Par contre, le choix de Grok est peut-être un peu étonnant, vu qu'on soupçonne Musk de politiser son IA, pas dit qu'on ait les mêmes résultats avec Claude.

En tout cas, passer le Code général des impôts ou le Code du travail dans une IA pour relever les incohérences, les doublons et les articles devenus obsolètes, ça ferait probablement ressortir des choses assez intéressantes. BetterEU ne va pas remplacer un juriste, mais comme outil d'audit à grande échelle, c’est loin d’être con.

Source : BetterEU

Des mini-cerveaux cultivés en labo ont appris à résoudre un problème d'ingénierie

Des chercheurs de l'université de Californie à Santa Cruz ont réussi à entraîner des organoïdes cérébraux de souris pour qu'ils résolvent le problème du cart-pole, un test classique en intelligence artificielle. Les résultats sont prometteurs, mais ces petits cerveaux ont un gros défaut : ils oublient à chaque pause (un peu comme moi au collège).

Le cart-pole, un classique de l'IA confié à des neurones vivants

Le cart-pole, c'est un exercice bien connu en robotique et en IA : il faut maintenir un pendule en équilibre vertical sur un chariot mobile, un peu comme quand vous essayez de tenir un stylo debout sur le bout du doigt. En général, ce sont plutôt des algorithmes qui gèrent ce genre de tâches. Mais pour cette expérimentation, les équipes en charge du projet ont vouluvoir si des neurones purement biologiques pouvaient eux aussi s'en sortir.

Ils ont utilisé des organoïdes corticaux , des amas de tissu cérébral cultivés à partir de cellules souches de souris, et les ont connectés à un système d'électrophysiologie développé avec Maxwell Biosciences. L'inclinaison du pendule était traduite en signaux électriques envoyés aux neurones, et l'activité neuronale en retour servait à diriger le chariot vers la gauche ou la droite.

46 % de réussite

L'équipe a testé trois conditions. Sans retour d'information, les organoïdes ne réussissaient que dans 2,3 % des essais. Avec des signaux aléatoires envoyés à certains neurones, ça montait à 4,4 %. Mais quand les chercheurs ont utilisé un entraînement adaptatif, où les stimulations ciblaient les bons neurones en fonction des performances, le taux de réussite a grimpé à 46 %.

Ash Robbins résume ça assez bien : quand on choisit activement les stimuli d'entraînement, on peut modeler le réseau pour qu'il résolve le problème. L'étude, publiée dans Cell Reports en février 2026, est la première démonstration rigoureuse d'un apprentissage dirigé vers un objectif chez des organoïdes cérébraux.

Un problème de mémoire un peu contrariant

Là où ça coince, c'est la mémoire. Après 15 minutes d'exercice sur le cart-pole, les organoïdes se reposent 45 minutes. Et au retour, leurs performances retombent au niveau de départ. Aucune consolidation de l'apprentissage n'a été observée, ce qui veut dire que ces neurones apprennent sur le moment mais ne retiennent rien.

David Haussler précise d'ailleurs que l'objectif n'est pas de créer une forme d' intelligence artificielle biologique , mais de mieux comprendre comment les maladies neurologiques perturbent les mécanismes d'apprentissage du cerveau.

C'est quand même assez spectaculaire de voir un amas de neurones de souris arriver à équilibrer un pendule virtuel, même avec un taux de 46 %. Bon, on est très loin d'un cerveau fonctionnel, et le fait qu'ils oublient tout après une sieste de 45 minutes montre bien qu'il manque des mécanismes de consolidation que possèdent les vrais cerveaux.

Mais pour la recherche sur des maladies comme Alzheimer ou Parkinson, pouvoir observer en temps réel comment un réseau neuronal apprend et oublie dans un environnement contrôlé, c'est un outil qui pourrait changer pas mal de trucs à l’avenir.

Source : Science Alert

LiteRT - L'IA embarquée de Google passe la seconde

TensorFlow Lite, c'est fini. Enfin presque car Google a rebrandé dernièrement son framework d'inférence embarquée sous le nom de LiteRT , et en a profité pour refaire pas mal de choses sous le capot.

Rassurez-vous mes petits prompts engineers (lol), le principe reste le même à savoir faire tourner des modèles de machine learning directement sur votre smartphone, votre tablette ou votre Raspberry Pi, sans envoyer vos données dans le cloud. Sauf que cette fois, y'a une nouvelle API baptisée Compiled Model qui change la donne car, en fait, l'ancien système vous obligeait à choisir manuellement votre accélérateur.

Avec ce Compiled Model, le runtime sélectionne automatiquement le meilleur accélérateur dispo, que ce soit le CPU, le GPU ou le NPU de votre appareil. Et ça gère l'exécution asynchrone et le zéro-copie côté buffers GPU... donc autant dire que côté latence, on passe de la 2CV au TGV. Bref, moins de bricolage pour les devs.

Côté plateformes, c'est plutôt copieux. Sur Android, ça exploite les NPU de Qualcomm, MediaTek et Google Tensor. Sur iOS, Metal se charge du GPU (et l'Apple Neural Engine arrive bientôt). Linux passe par WebGPU, macOS par Metal, et Windows reste en CPU pour le moment, et Google annonce même un support IoT avec Raspberry Pi. Carrément, du smartphone au micro-contrôleur ! Attention par contre, certains supports NPU sont encore marqués "à venir", donc ne vous attendez pas à tout faire tourner sur n'importe quel chipset dès demain.

D'ailleurs, le gros morceau c'est le support de l'IA générative embarquée. Avec le module LiteRT-LM, vous pouvez déployer des LLMs directement sur le téléphone. Pas de serveur, pas de connexion, tout tourne dans la poche. Bon, faut pas s'attendre à faire tourner un modèle de 70B paramètres sur un Pixel non plus, mais pour les devs qui veulent intégrer du GenAI dans leurs apps mobiles sans dépendre du cloud, c'est franchement pas mal. Et si Ollama vous permet déjà de faire tourner des modèles en local sur votre PC, ici je vous parle carrément d'appareils mobiles et d'embarqué.

Côté langages, y'a le choix : Kotlin et C++ pour la nouvelle API Compiled Model, Swift pour l'API Interpreter sur iOS, Python pour le desktop. Et si vous venez du monde PyTorch, un convertisseur dédié transforme vos modèles au format .tflite sans trop de douleur. L'ancienne API Interpreter reste dispo pour la rétrocompatibilité, mais à vrai dire, Google pousse clairement vers Compiled Model. Du coup, si vous aviez des projets TensorFlow Lite existants, la migration se fait en douceur parce que le format .tflite ne change pas.

En fait, le problème, c'est plutôt le manque de doc sur les cas tordus... et n'oubliez pas de tester vos modèles après conversion.

Pour ceux qui voudraient se lancer, tiens, y'a aussi un codelab de segmentation d'images en temps réel sur Android et une collection de modèles pré-entraînés sur Kaggle. Des apps d'exemple sont dispo sur GitHub pour pas repartir de zéro (détection d'objets, classification d'images, pose estimation...). Et si vous êtes plutôt Apple, sachez que l'IA locale sur mobile c'est clairement la tendance du moment.

Bref, si l'inférence embarquée ça vous parle, ça vaut clairement le coup d’œil !

Perplexity veut transformer votre Mac mini en agent IA permanent

Perplexity vient de présenter Personal Computer, un agent IA qui tourne en continu sur un Mac mini et qui accède à vos fichiers, vos applications et vos sessions. Réservé aux abonnés Max à 200 dollars par mois, le service est pour l'instant sur liste d'attente.

Un assistant qui ne dort jamais

L'idée est plutôt simple sur le papier : installer un agent IA sur un Mac mini qui reste allumé en permanence, connecté à vos données locales et aux serveurs de Perplexity. L'annonce de ce produit a été faite en grande pompe lors de la conférence Ask 2026, dédiée aux développeurs et organisée directement par Perplexity.

Cet agent IA permet de rédiger des mails, préparer des briefs quotidiens, trier et renommer des fichiers, ou analyser des documents, sans intervention de votre part. Tout se pilote depuis Perplexity directement, même à distance.

Histoire d'éviter les problèmes et débordements, des garde-fous ont quand même été mis en place.

Les actions les plus sensibles doivent obligatoirement être validées par l'utilisateur (vous donc, un vrai humain a priori), chaque session est consignée dans un journal d'audit et vous avez même un bouton d'arrêt d'urgence, pour reprendre le contrôle dès que vous le souhaitez. Selon Perplexity, le dispositif est bien plus sécurisé qu'OpenClaw.

Le choix du modèle

L'un des aspects les plus intéressants de Personal Computer, c'est que vous pouvez choisir le modèle d'IA qui fait tourner l'agent. Claude, Gemini ou Grok : à vous de voir lequel colle le mieux à vos besoins.

L'accès est réservé aux abonnés Perplexity Max, facturé 200 dollars par mois, avec 10 000 crédits de calcul inclus. C'est Mac uniquement pour le moment, et il faut passer par une liste d'attente avant de pouvoir essayer.

En parallèle, Perplexity a aussi dévoilé Computer for Enterprise, une version destinée aux professionnels qui connecte l'agent aux outils comme Snowflake, Salesforce ou HubSpot. Et puis une plateforme API avec quatre briques : recherche, agent, sandbox et embeddings. Le tout accompagné de Perplexity Finance, un outil avec plus de quarante sources de données financières en temps réel.

Le choix du Mac mini comme machine hôte n'a rien d'un hasard. Apple l'utilise déjà pour son Private Cloud Compute, et la machine commence à être fabriquée aux États-Unis cette année.

Perplexity surfe sur cette tendance et propose quelque chose d'assez différent des chatbots classiques : un agent ancré dans votre environnement local, pas juste une fenêtre de chat dans un navigateur.

Source : Blog du modérateur , 9to5Mac

MLX-Audio - Faites parler votre Mac sans le cloud

Faire de la synthèse vocale , de la transcription et du voice cloning en local sur son Mac, sans envoyer le moindre octet dans le cloud... hey bien c'est possible mes petits foufous et en plus comme je sais que vous avez des oursins dans les poches, hé bien bonne nouvelle : C'est gratuit !

MLX-Audio , c'est donc une bibliothèque Python qui exploite le framework MLX d'Apple pour faire tourner des modèles audio directement sur les puces M1, M2, M3, M4 et maintenant M5. Cette liste est trop longue, la prochaine fois, j'écrirais M* ou M1-5 ^^. Avec cette lib, du coup, tout se fait en local sur votre machine. Si je devais oser une comparaison un peu casse gueule, je dirais que c'est un peu le Ollama de l'audio.

Côté text-to-speech, y'a surtout du choix. Une dizaine de modèles sont disponibles, dont Kokoro pour du multilingue (français, anglais, japonais, chinois, espagnol...), Chatterbox qui gère 23 langues, ou encore Dia pour les dialogues. Et voici comment ensuite avec une commande dans le terminal, on peut faire parler la machine :

mlx_audio.tts.generate --model mlx-community/Kokoro-82M-bf16 --text "Salut les copains" --lang_code f --play

Le truc sympa, c'est que ça ne s'arrête pas à la synthèse vocale. Côté transcription, on retrouve Whisper (le modèle d'OpenAI qui gère 99 langues), Parakeet de NVIDIA pour les langues européennes, et même VibeVoice-ASR de Microsoft qui fait de la diarization (identifier qui parle dans une conversation).

Pour transcrire un fichier audio, c'est donc tout aussi simple :

python -m mlx_audio.stt.generate --model mlx-community/whisper-large-v3-turbo-asr-fp16 --audio meeting.wav --verbose

Y'a aussi le voice cloning avec CSM, où vous filez un fichier audio de référence et le modèle reproduit la voix. Perso, ça fait un peu flipper mais qui est carrément bluffant ! Sauf si vous avez une voix super particulière (trop de clope hein ^^), au final le résultat est assez bon.

Attention, tout ça a besoin de mémoire ! Heureusement, la bibliothèque gère la quantization (de 3 à 8 bits), du coup les modèles sont compressés pour tenir dans la mémoire unifiée des puces Apple Silicon. Le plus léger, Kokoro, fait 82M de paramètres et le plus costaud, Ming Omni, monte à 16.8 milliards de paramètres (mais en mixture-of-experts, donc seulement 3B activés à la fois). Pour ce dernier, faut donc un Mac avec pas mal de RAM.

D'ailleurs, si vous êtes développeur, la bibliothèque expose également une API REST compatible OpenAI. Ça veut dire que vos apps qui causent déjà avec l'API d'OpenAI peuvent basculer sur du local sans changer une ligne de code... enfin presque. Car faut quand même pointer vers localhost au lieu des serveurs d'OpenAI, mais c'est à peu près tout. Y'a même un package Swift pour intégrer ça dans une app iOS ou macOS native.

Voilà, pour ceux qui préfèrent une interface graphique, un mode web avec visualisation 3D de l'audio est même intégré. C'est super joli !

Ce projet est sous licence MIT, et le mainteneur, Prince Canuma, est un ancien ingénieur ML chez Arcee AI, donc pas un random qui a forké un truc un dimanche ^^.

Voilà, si vous avez un Mac et que l'audio IA en local vous branche, c'est open source, c'est gratuit et ça marche carrément bien !

❌