Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

EQ-Bench - Le benchmark de l'intelligence émotionnelle des IA

Sam Paech s'est rendu compte qu'on testait toujours les IA sur le code, les maths, et à qui battra un prochain record , mais presque jamais sur leur capacité à comprendre les émotions humaines ou à pondre un texte qui ne sente pas le slop de bot à plein nez. Et c'est pour ça qu'il a monté EQ-Bench , un benchmark qui note l**'intelligence émotionnelle des grands modèles de langage**.

Pour alimenter son benchmark, il colle tout un tas de modèles dans des jeux de rôle un peu tordus (45 scénarios dans sa dernière version) et c'est un autre modèle (Claude, en l'occurrence) qui joue l'examinateur. Il note alors chaque réponse sur huit dimensions, telles que l'empathie, la finesse sociale ou la capacité à poser une limite quand il faut, puis nous sort un classement façon Elo (le classement des échecs). Tout est open source, documenté dans un papier de recherche et Paech finance ce bazar avec ses propres deniers.

Et depuis 2023, c'est devenu une véritable collection de tests...

Y'a un test d'écriture créative, un autre qui regarde si le modèle vous cire les pompes au lieu de vous recadrer quand la conversation s'éternise, un sur l'humour, et même un où les IA jouent à Diplomacy pour voir lesquelles savent négocier et bluffer.

Mais mon préféré c'est le Slop Score, qui mesure à quel point un texte pue l'IA. Pour cela, il traque les mots sur-utilisés et le fameux tic du "pas X, mais Y". Bref, de quoi objectiver (un peu) ce qui rend la moitié du web illisible ces temps-ci.

Paech prévient quand même que son "juge" reste quelque chose de totalement subjectif et qu'il n'existe aucune vérité absolue sur l'intelligence émotionnelle. C'est donc plutôt à lire comme une boussole et pas comme un verdict gravé dans le marbre (ou le silicium ^^).

Toutefois, pour savoir si un modèle écrit comme un humain plutôt que comme un employé d'agence de branding, c'est plutôt pratique. Et je vous conseille d'aller fouiller un peu dans les classements, comme ça vous verrez que le meilleur en code n'est pas forcement le plus futé côté émotions...

Bref, vivement le retour de Fable 5 ^^

Un bug qui gèle l'écran des portables AMD sous Linux traîne depuis 2017, et c'est Claude qui a aidé à le corriger

Si vous utilisez un ordinateur portable à puce graphique AMD Radeon sous Linux, vous avez peut-être déjà vu l'écran se figer d'un coup, sans raison apparente, à peu près une fois par semaine. Ce bug agace les utilisateurs depuis des années, et un correctif vient enfin de pointer le bout de son nez.

Le coupable se cache dans AMDGPU, le pilote graphique libre qu'AMD maintient pour Linux. On parle ici du logiciel qui fait le lien entre la carte graphique et le système d'exploitation.

Le problème ne date pas d'hier. En fouillant l'historique du code, le développeur à l'origine du correctif a remonté la piste jusqu'à une modification introduite en 2017. Presque huit ans de gels d'écran.

Le symptôme typique, c'est une erreur "flip_done timed out" dans les journaux du système. Pour faire simple, l'ordinateur attend que l'écran affiche l'image suivante, ce signal n'arrive jamais. Et tout gèle.

Le souci touche plusieurs machines, bien connues du monde Linux, comme le Lenovo ThinkPad T14 Gen1 en version AMD ou le Framework Laptop 13 équipé d'un processeur Ryzen 7 7840U. Jusqu'ici, le seul remède consistait à désactiver le PSR, pour "Panel Self Refresh".

Cette fonction d'économie d'énergie laisse l'écran réafficher tout seul sa dernière image fixe sans réveiller la carte graphique, histoire d'économiser de la batterie. Pratique sur un portable, sauf que c'est précisément elle qui déclenchait les gels.

Le plus intéressant, c'est la méthode employée. Le correctif a été mis au point en "vibe debugging" avec Claude Code, l'assistant de programmation d'Anthropic, le concurrent direct d'OpenAI. Le développeur a décrit le bug à l'IA, qui l'a aidé à explorer le code et à affiner les correctifs, plutôt que de dérouler une procédure de débogage classique.

Concrètement, les patchs revoient la gestion du "vblank" et du "page-flip" dans le bloc d'affichage DCN, c'est-à-dire la mécanique interne qui synchronise le moment où une nouvelle image remplace l'ancienne à l'écran. D'autres tentatives avaient échoué par le passé, mais cette série semble enfin tenir la route.

Maintenant patience, rien n'est encore intégré dans le noyau Linux officiel. Les correctifs doivent passer par les tests et la validation des mainteneurs avant d'arriver chez tout le monde, ce qui peut quand même prendre plusieurs versions du kernel.

Bref, on est là devant un bug fantôme qui date d'lil y a huit ans, débusqué en discutant avec une IA, voilà qui résume assez bien l'année 2026 côté développement.

Source : Phoronix

Linux tire un trait sur AppleTalk

C'est la fin d'une époque. Le noyau Linux, le cœur du système qui pilote le matériel et les communications, s'apprête à supprimer le support d'AppleTalk, ce vieux protocole réseau qu'Apple utilisait dans les années 80 et 90 pour faire dialoguer ses Mac entre eux avant que TCP/IP, le langage commun d'internet, ne s'impose partout.

À l'époque, c'était plutôt malin: vous branchiez deux machines et une imprimante, et elles se trouvaient toutes seules, sans la moindre configuration, du plug-and-play avant l'heure à un moment où monter un réseau relevait encore du casse-tête réservé aux initiés.

Aujourd'hui, plus grand monde ne parle ce dialecte. Il en subsiste quelques traces dans Bonjour, la techno maison qui détecte automatiquement imprimantes et appareils sur un réseau local, mais le protocole d'origine, lui, est mort depuis longtemps.

Près de 4000 lignes de code vont donc disparaître avec la version 7.2 du noyau, et Apple avait lui-même enterré AppleTalk dès 2009, du temps de Mac OS X Snow Leopard. Autant dire que le préavis a été large.

Le plus étonnant, c'est ce qui a déclenché le grand ménage. Ce n'est pas vraiment l'abandon par les utilisateurs, mais une vague de correctifs générés par intelligence artificielle qui a fini par saturer la liste de diffusion des développeurs réseau.

Depuis quelques mois, des outils basés sur des grands modèles de langage, balancent automatiquement des "corrections" de bugs sur du code que personne n'avait réclamé, pour un protocole que plus aucun matériel ne fait tourner.

Et chaque proposition, même inutile, mobilise un humain qui doit la lire, la tester et vérifier qu'elle ne casse rien ailleurs, du temps précieux soustrait au vrai travail de mainteneurs déjà débordés par les contributions légitimes.

C'est Jakub Kicinski, qui supervise toute la pile réseau du noyau, qui a fini par trancher: plutôt que de faire éplucher par ses équipes des patchs pondus en série par des machines pour réparer une techno morte, il a préféré retirer AppleTalk d'un seul geste.

Et il n'en est pas à son coup d'essai. Au cycle précédent, pour Linux 7.1, il avait déjà passé à la trappe ARCnet, l'ISDN, la radio amateur et toute une collection de vieux pilotes réseau oubliés, soit près de 138 000 lignes effacées d'un coup, dans ce qu'il a lui-même baptisé la "LLM-pocalypse".

Le code d'AppleTalk ne finit quand même pas tout à fait à la poubelle, puisqu'il rejoint AX.25 et la radio amateur dans un dépôt GitHub mis de côté, pour les rares curieux qui voudraient encore bidouiller avec.

Bref, c'est une première: des contributions automatisées qui font retirer du code encore fonctionnel. L'IA ne crée pas toujours. Parfois, elle déblaie.

Source : Phoronix

Qwen-Robot Suite - Alibaba donne un corps à son IA

Voici une news concernant l'intelligence artificielle, qui je pense devrait vous plaire si vous vous intéressez à la robotique. Alibaba qu'on ne présente plus, vient de sortir sa Qwen-Robot Suite, 3 modèles IA signés Tongyi Lab (les gens derrière Qwen ) imaginé pour donner un corps à l'IA. Parce qu'une machine capable de décrire votre cuisine au millimètre près mais complétement infoutue d'y attraper une tasse, voilà un peu ce qu'on a en robotique en ce moment...

Car "comprendre" le monde, ça les modèles savent faire. Mais agir dedans, c'est une autre paire de manches. Cette Qwen-Robot Suite découpe donc ça en trois briques, RobotNav pour se déplacer, RobotManip pour saisir des objets, et RobotWorld qui joue les boules de cristal en prédisant ce qui va se passer avant même que le robot ne bouge. Et si vous voulez expérimenter tout ça tout de suite, sans mettre les mains dans le cambouis, y'a même une démo Chat2Robot , où vous tapez une instruction dans votre navigateur et un bras robotique l'exécute en direct !

Mais le plus parlant dans leurs démos, c'est ce chien-robot Unitree Go2 ( bourré de failles de sécu, qui balance toutes vos données en chine ) qui, une fois lâché chez vous avec sa seule petite caméra bas de gamme, peut se balader dans toute la maison pour vous rendre tout un tas de services. Sauf qu'ici il opère dans des lieux qu'il n'a jamais vus, en suivant vos consignes vocales de pièce en pièce, et il peut même refaire tout le trajet à l'envers sur commande. C'est en tout cas, assez cool de voir ces world models enfin capables d'apprendre à résoudre des problèmes auxquels il n'a encore jamais été confronté.

L'astuce, c'est d'entraîner un seul modèle sur les données de plein de robots différents d'un coup, au lieu de repartir de zéro pour chaque machine. Du coup un geste appris sur un bras X se transfère direct sur un autre bras Y, et chaque robot profite ainsi, en quelque sorte, de l'expérience accumulée par tous les congénères du lot. Et tout ça a été nourri avec plus de 38 000 heures de données, uniquement en l'open-source, dont des vidéos de gens filmés en train de faire des trucs, et adapté pour que la machine puisse apprendre en regardant faire des humains .

Et niveau perfs, ça tape fort apparemment !

Sur les benchmarks de manipulation, RobotManip passe devant π0.5, un modèle de Physical Intelligence dont je vous avais déjà parlé, avec quand même 7 points d'avance, sur un benchmark de manipulation standard. Il finit aussi premier sur RoboChallenge, le classement généraliste du secteur. Bon, ce sont des chiffres de labo bien sûr, mais le saut par rapport à la concurrence fait mal ^^.

Ce que Qwen veut faire surtout, c'est de tout passer par le langage naturel comme ça une commande de bras, un virage de voiture, un point de navigation et compagnie... tout devient une simple phrase. Cela permet aux modèles Qwen classiques d'appeler ces briques comme des outils, et de brancher l'intelligence artificielle classique (les LLMs) directement sur l'action physique (les World Model). La presse parle déjà d'un "moment Android" pour la robotique, autrement dit un cerveau logiciel que n'importe quel fabricant de bras ou de roues pourrait embarquer sans avoir à fabriquer la quincaillerie. Ce serait fou !

Après, Chat2Robot tourne sur 50 tâches seulement et n'est pas parfait. Le tout est en test pilote chez quelques clients d'Alibaba Cloud, donc c'est pas encore pour votre robot aspirateur... Mais si le concept de robot à la maison vous intéresse, c'est une approche intéressante je trouve. Entre Physical Intelligence, Gemini Robotics chez Google et GR00T chez NVIDIA, tout le monde semble chercher le même Graal, à savoir une IA généraliste capable de piloter n'importe quel corps mécanique. Bref, Alibaba ne vend pas de robot, mais le cerveau qui va dedans, et le fait que ce soit entièrement open-source et orienté langage me fait dire qu'on risque de voir plein de projets cools et surtout accessibles se monter autour de ça.

Source

❌