Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Unitree G1 – Le robot humanoïde à tout faire pour 16 000$

Unitree, le fabricant chinois de robots bien connu (sauf par moi visiblement) pour ses quadrupèdes comme le Go2 et le B2, nous réserve une sacrée surprise avec son nouveau robot humanoïde baptisé G1. Et apparemment, ce n’est pas un gadget de geek.

Avec un prix de départ à 16 000 $, le G1 est une « affaire intéressante » comparé à d’autres robots humanoïdes comme l’Atlas de Boston Dynamics (qui coûte bien plus cher). Ce qui frappe d’emblée quand on regarde la vidéo, c’est la flexibilité hallucinante de ce robot. Grâce à ses 23 degrés de liberté dans les articulations, il peut bouger dans tous les sens, bien au-delà des capacités humaines. C’est un peu flippant ^^. Il peut même se plier pour se ranger facilement dans un coin.

Mais ce n’est pas qu’un contorsionniste en manque de reconnaissance. C’est aussi un sacré costaud avec ses 35kg (ou 47 kg… les infos divergent…) et sa vitesse de déplacement de 2 m/s. Ses moteurs délivrent jusqu’à 120 Nm de couple, de quoi soulever des charges d’environ 3 kg avec ses petits bras. Et avec sa batterie de 9000 mAh, il peut tenir environ 2 heures sur une seule charge (sur le papier). Bref, de quoi l’utiliser pour divers travaux sans craindre qu’il tombe à plat trop vite.

Côté look, Unitree a joué la carte du robot futuriste avec son casque aux allures de Daft Punk et son visage illuminé qui cache des capteurs 3D LiDAR et une caméra de profondeur. Mais ce sont surtout ses mains robotiques à trois doigts qui impressionnent le plus. Elles lui permettent d’attraper et de manipuler des objets avec une précision et une dextérité bluffantes.

Ce robot apprend aussi en permanence grâce à des techniques d’imitation et d’apprentissage par renforcement. Il peut simuler les mouvements humains et acquérir de nouvelles compétences au fur et à mesure. Son cerveau embarque 8 cœurs haute performance pour un traitement ultra-rapide des informations. Et avec le WiFi 6 et le Bluetooth 5.2, il est hyper connecté ! Pour ceux qui cherchent à le développer davantage, le modèle G1 EDU inclut même en option le module de calcul haute performance NVIDIA Jetson Orin.

Alors Terminator en devenir ou pas ? Bien qu’il puisse encaisser des coups, il reste très docile. Enfin, pour l’instant… Car Unitree prévoit de l’entraîner dans des environnements simulés pour muscler encore plus son IA.

Bref, ce G1 de Unitree apporte un peu de fraicheur, surtout qu’à ce prix, ça commence à devenir accessible pour le commun des friqués. Certaines de ses fonctionnalités impressionnantes sont encore en développement, mais avec le rythme auquel avancent les technologies robotiques, ce n’est qu’une question de temps avant qu’il ne devienne encore plus polyvalent et sache se rendre indispensable.

Bref, pour en savoir plus, rendez vous sur le site Unitree.

Perso, je me porte volontaire pour le tester.

Source

AlphaFold 3 – Un sacré bond en avant pour la modélisation des molécules du vivant

Vous vous souvenez d’AlphaFold 2, ce modèle d’IA assez dingue de Google DeepMind qui avait fait des avancées majeures dans la prédiction des structures de protéines ? Eh bien, la version 3 vient de débarquer et elle repousse encore un peu plus les limites !

AlphaFold 3, c’est comme si on passait d’un film noir et blanc du genre la Vache et Le Prisonnier à un film en 3D style Avatar, car non seulement il prédit avec une précision impressionnante la structure 3D des protéines, mais il est également capable de modéliser leurs interactions avec tout un tas d’autres molécules : l’ADN, l’ARN, les petites molécules organiques comme les médicaments, et même les modifications chimiques.

Concrètement, ça veut dire qu’on va pouvoir mieux comprendre comment toutes ces molécules qui nous composent s’assemblent et fonctionnent ensemble, comme les rouages de l’horloge cosmique de la viiiie. Un sacré bond en avant pour décrypter les processus biologiques fondamentaux et leurs dysfonctionnements à l’origine des maladies.

Son secret, évidemment, c’est une architecture de réseau de neurones encore plus puissante et entraînée sur une montagne de données moléculaires. Le cœur du système repose sur un module Evoformer amélioré, couplé à une nouvelle approche basée sur des réseaux de diffusion qui partent d’un nuage d’atomes pour converger vers la structure moléculaire la plus probable.

Et les résultats sont vraiment impressionnants puisque sur les jeux de données de référence, AlphaFold 3 bat des records avec des améliorations significatives par rapport aux méthodes existantes. Pour certaines catégories d’interactions, comme celles avec les médicaments, il augmente même nettement la précision des prédictions. Et tout ça sans même avoir besoin de données structurales en entrée.

Mais le plus cool, c’est que c’est open source (Edit : Apparemment, ça ne l’est plus malheureusement – Merci à Enthuo pour la correction) et accessible gratuitement à la communauté scientifique via le nouveau serveur AlphaFold. Cet outil permet à n’importe quel chercheur de générer des prédictions pour ses protéines d’intérêt en quelques clics, là où il fallait avant un travail titanesque et des moyens conséquents. Bref, de quoi démocratiser la biologie structurale et accélérer les découvertes !

Évidemment, avec une telle puissance vient aussi de grandes responsabilités, alors les gros cerveaux derrière DeepMind ont longuement planché avec de nombreux experts et organismes pour définir un cadre éthique et limiter les risques de mésusage comme on dit. Parce qu’autant un AlphaFold entre de bonnes mains, ça peut faire avancer la science et la médecine de façon spectaculaire, autant on n’a pas envie de voir débarquer des virus ou des prions tueurs conçus par des apprentis sorciers.

Mais j’ai hâte de voir ce que la communauté scientifique va réussir à faire avec cet outil génial. Peut-être de nouvelles enzymes pour des applications industrielles, des matériaux bio-inspirés aux propriétés uniques, ou des protéines thérapeutiques plus efficaces ? En tout cas une chose est sûre, la révolution biotech ne fait que commencer et nul doute qu’AlphaFold 3 en sera l’un des acteurs clés !

Source

Fabric – Un framework open source pour travailler main dans la main avec l’IA

Depuis que l’IA a débarqué dans nos vies, il est maintenant possible de lui déléguer une grande partie de nos tâches fastidieuses et chronophages, ce qui nous permet de nous concentrer sur l’essentiel. Des outils comme ChatGPT ont évidemment démocratisé l’accès à cette technologie, mais ses capacités vont bien au-delà d’un simple agent conversationnel.

En effet, l’IA peut devenir un véritable assistant personnel pour booster à la fois notre créativité et notre productivité. Perso, je ne peux plus m’en passer, et que vous soyez développeur, designer, écrivain ou entrepreneur, il existe de nombreuses façons de l’intégrer dans vos workflows. Génération de code, création de visuels, rédaction et correction de texte, analyse de données, relecture de contrats, automatisation de tâches… La liste est infinie pour peu que vous ayez un peu d’imagination.

C’est là qu’entre en scène le projet open-source Fabric qui permet justement de créer des workflows basés sur l’IA totalement sur-mesure en combinant différents modèles et différentes APIs. Comme ça vous pourrez concevoir vos propres assistants adaptés à vos propres besoins.

Concrètement, Fabric fonctionne comme un framework avec différents composants réutilisables :

  • Des Patterns qui sont des templates de prompts répondant à un besoin précis (ex : résumer un article, extraire les idées clés d’une vidéo, etc).
  • Des Stitches qui permettent d’enchaîner plusieurs Patterns pour créer des workflows avancés.
  • Un serveur central appelé Mill qui héberge et sert les Patterns.
  • Des apps clientes appelées Looms qui invoquent les Patterns via des APIs.

Plutôt que d’utiliser des services IA fermés, Fabric vous donne le contrôle total sur vos workflows. Comme ça, vous pouvez héberger vous-même les différents composants et garder vos données en local. Le tout étant bien sûr basé sur des standards ouverts et interopérables.

L’idée pour les gens derrière Fabric, c’est de rendre l’intégration de l’IA aussi simple que l’utilisation de commandes Unix. Par exemple, pour résumer le contenu d’une page web avec l’IA, il vous suffit de chaîner les deux commandes suivantes :

curl https://example.com | fabric --pattern summarize

Vous pouvez même créer des aliases pour vos patterns les plus utilisés. Par exemple pour analyser un article :

alias analyze="fabric --pattern analyze" cat article.txt | analyze

Bien sûr, tout ceci nécessite un peu de pratique et de changements dans vos habitudes de travail mais une fois les bons réflexes pris, le gain de temps sera considérable.

Certains craignent que l’IA nous mette tous au chomage mais je pense au contraire qu’elle va surtout nous aider à torcher rapidement les tâches ingrates pour nous permettre d’être plus créatifs et de bosser sur les sujets de fond avec plus de valeur ajoutée.

Si ça vous dit d’essayer Fabric, la doc est ici.

Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)

Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?

C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.

Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.

Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.

Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.

Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :

Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.

Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.

Vous devrez donc avoir Python 3.11, puis installez poetry :

brew install poetry

Ensuite, clonez le dépôt git et aller dans le dossier :

git clone https://github.com/Skyvern-AI/skyvern.git

cd skyvern

Puis lancez le script d’install :

./setup.sh

Une fois que c’est fini, démarrez le serveur :

./run_skyvern.sh

Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :

./run_ui.sh

Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.

En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :

curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
    "url": "https://www.geico.com",
    "webhook_callback_url": "",
    "navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
    "data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
    "navigation_payload": "{Vos données ici}",
    "proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks

Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.

Bref, pour en savoir plus, c’est sur le Github. Et sur leur site officiel.

Discutez avec les interviews de Steve Jobs !

Fans de Steve Jobs, réjouissez-vous !

Grâce à la magie de l’intelligence artificielle, vous allez pouvoir discuter avec votre gourou préféré. Enfin, quand je dis « discuter », c’est un bien grand mot. Disons plutôt que vous allez pouvoir poser des questions à un modèle de langage entraîné sur une petite quantité d’interviews et discours de Steve Jobs himself.

Pour cela, le créateur de ce chatbot a utilisé un service nommé Jelli.io qui permet justement de chatter avec des vidéos et le résultat est plutôt cool, même si le chatbot n’incarne pas directement Steve Jobs (pour des questions éthiques j’imagine et pour n’énerver personne…)

Bref, de quoi vous inspirer et vous motiver sans forcement mater des heures et des heures d’interviews.

Ollama 0.133 – Enfin une gestion en parallèle des LLMs

Vous avez vu la dernière version d’Ollama ? Cette version 0.133 a l’air plutôt pas mal. Bon, je sais, je sais, ça faisait un bail que je n’avais pas parlé des mises à jour de cet outil génial pour faire tourner des modèles d’IA en local, mais là, impossible de passer à côté !

Déjà, on a le droit à des fonctionnalités expérimentales de parallélisme (je sais pas si c’est comme ça qu’on dit en français…) qui vont vous permettre d’optimiser grave vos applis d’IA. Il y a donc 2 nouvelles variables d’environnement qui débarquent : OLLAMA_NUM_PARALLEL et OLLAMA_MAX_LOADED_MODELS. Avec ça, vous allez pouvoir gérer plusieurs modèles et requêtes en même temps, comme des pros ! 😎

Par exemple, si vous avez un modèle pour compléter votre code avec une IA de 6 milliards de paramètres comme Llama 3, et en même temps vous demandez à Phi 3 Mini et ses 3,8 milliards de paramètres comment architecturer votre projet et bien maintenant, c’est possible ! Comme ça, plus besoin d’attendre que l’un ait fini pour lancer l’autre puisque tout ça va se lancer en parallèle.

Alors bien sûr, c’est encore expérimental car il n’y a pas encore de priorité, et on est limité par la mémoire dispo sur notre machine. D’ailleurs, il vaut mieux avoir 16 Go de RAM et un CPU 4 cœurs pour que ça fonctionne correctement.

Il y a aussi plein de nouveaux modèles d’IA compatibles avec Ollama maintenant. Des gros calibres comme Llama 3, le meilleur modèle open-source à ce jour, mais aussi des plus légers et spécialisés comme Phi 3 Mini, Moondream pour la vision par ordinateur sur des appareils à la marge, ou encore Dolphin Llama 3 qui répond sans censure. Et le premier modèle Qwen (c’est chinois) de plus de 100 milliards de paramètres, Qwen 110B, est également de la partie. Ça en fait des compagnons pour nous assister dans nos projets !

Ensuite, imaginons que vous vouliez tester le parallélisme. Vous devez simplement lancer votre serveur Ollama avec les fameuses variables d’environnement.

Voici comment procéder :

Définir les variables sur Mac :

  • Utilisez launchctl pour définir chaque variable. Par exemple, pour permettre à Ollama de gérer trois requêtes simultanément, tapez dans le terminal :
    launchctl setenv OLLAMA_NUM_PARALLEL 3
  • Pour définir le nombre maximal de modèles chargés simultanément à deux, utilisez :
    launchctl setenv OLLAMA_MAX_LOADED_MODELS 2
  • Après avoir défini les variables, redémarrez l’application Ollama.

Configurer les variables sur Linux :

    • Éditez le service systemd d’Ollama avec systemctl edit ollama.service, ce qui ouvrira un éditeur de texte.
    • Ajoutez les lignes suivantes sous la section [Service] :
      [Service] Environment="OLLAMA_NUM_PARALLEL=3" Environment="OLLAMA_MAX_LOADED_MODELS=2"
    • Sauvegardez et quittez l’éditeur. Rechargez systemd et redémarrez Ollama avec :
      systemctl daemon-reload systemctl restart ollama

    Paramétrer les variables sur Windows :

      • Quittez l’application Ollama via la barre des tâches.
      • Accédez aux variables d’environnement système via le panneau de configuration et créez ou modifiez les variables pour votre compte utilisateur :
        • Pour OLLAMA_NUM_PARALLEL, ajoutez ou modifiez la variable à 3.
        • Pour OLLAMA_MAX_LOADED_MODELS, ajustez la variable à 2.
      • Appliquez les changements et redémarrez Ollama à partir d’une nouvelle fenêtre de terminal.

      Là, ça veut dire que vous pourrez envoyer 3 requêtes en parallèle sur le même modèle, et charger jusqu’à 2 modèles différents si votre RAM de 16 Go minimum le permet.

      Bon, et une fois que c’est lancé, vous pourrez envoyer des requêtes à tour de bras. Un coup à Llama 3 pour qu’il vous aide à générer un résumé de texte hyper optimisé, un autre à Phi 3 Mini pour résumer un article scientifique, tout ça pendant que Moondream analyse une image pour de la détection d’objets.

      Allez, je vous laisse tranquille, faut que j’aille optimiser mes scripts maintenant.

      Ollama 0.133 est dispo ici.

      Source

      Adobe VideoGigaGAN – L’IA qui transforme vos vidéos floues en HD !

      Vous avez une vieille vidéo toute pourrie, floue à souhait, qui date de Mathusalem et bien avec VideoGigaGAN d’Adobe, elle va se transformer en une magnifique séquence HD, avec des détails si nets que vous pourrez compter les poils de nez des gens qui sont dessus !

      VideoGigaGAN est ce qu’on appelle un modèle d’IA génératif. En gros, ce machin est capable de deviner les détails manquants dans une vidéo pourrave pour la rendre méga classe. Les petits gars d’Adobe ont balancé des exemples sur leur GitHub et franchement, c’est impressionnant. On passe d’une vidéo degueulasse à un truc ultra net, avec des textures de peau hallucinantes et des détails de fou !

      En plus, cette IA est capable d’upscaler les vidéos jusqu’à 8 fois leur résolution d’origine, par contre, faut pas s’emballer car pour le moment, c’est juste une démo de recherche et y’a pas encore de date de sortie officielle. Mais connaissant Adobe, y’a moyen que ça finisse dans Premiere Pro un de ces quatre. Je vais pouvoir améliorer mes vidéos tournées à l’époque au format 3GP \o/.

      D’ici là, va falloir continuer à se taper des vidéos de chat toutes pixelisées sur les réseaux sociaux.

      Source

      OpenELM – Apple sort ses modèles IA légers et open-source

      Vous connaissez OpenELM ? Non, normal, ça vient de sortir. Et c’est une famille de modèles IA open-source made in Apple conçus pour tourner directement sur vos appareils, sans passer par le cloud. En gros, c’est de l’IA maison dans nos iPhone, iPad et Mac…etc.

      OpenELM combine plusieurs modèles de langage naturel (LLMs) utilisant des algorithmes évolutionnistes qui exploitent les principes techniques suivants :

      1. Layer-wise scaling strategy : Cette stratégie consiste à allouer les paramètres dans les couches d’un modèle transformeur pour améliorer l’exactitude. Les modèles sont pré-alourés avec un budget de paramètres de 270 millions, 450 millions, 1,1 milliard et 3 milliards.
      2. Pré-entraînement : Les modèles ont été pré-entraînés à l’aide d’une combinaison de datasets, incluant une sous-ensemble de Dolma v1.6, RefinedWeb, deduplicated PILE et une sous-ensemble de RedPajama. Ce dataset contient environ 1,8 trillion de tokens.
      3. Evolutionary algorithms : Les algorithmes évolutionnistes sont utilisés pour combiner les modèles LLM et améliorer l’exactitude. Cela permet d’exploiter les forces combinées des modèles pré-alourés et d’améliorer leur précision.

      Alors évidemment, Apple arrive un peu après la bataille dans l’IA, pendant que Microsoft et Google déboulent à fond la caisse. Mais bon, mieux vaut tard que jamais, et puis ils compensent avec du lourd, soit 8 modèles OpenELM au total, dont 4 pré-entraînés avec CoreNet et 4 fine-tunés. Et avec leur stratégie de scaling par couche ça optimise à fond l’allocation des paramètres.

      Allez, je traduits… En gros, ça veut dire qu’ils sont hyper efficaces et précis. Prenez le modèle à 1 milliard de paramètres et bien bah il explose un modèle équivalent comme OLMo de 2,36% en précision, avec 2 fois moins de tokens en pré-entraînement. Et ce qui est top, c’est qu’Apple balance tout : code, logs d’entraînement, configuration…etc et pas juste le modèle final. Et vu qu’ils utilisent des datasets publics, c’est top en matière de transparence et vérification des biais.

      En tout cas, une chose est sûre, avec OpenELM, Apple nous prouve qu’ils sont dans la course, et qu’ils comptent bien mettre le paquet sur l’IA

      Et Merci à Letsar pour l’info, c’est lui qui m’a mis la puce à l’oreille sur OpenELM. Tu gères !

      Source

      L’IA du MIT qui prédit les actions humaines

      Imaginez un monde où les ordinateurs pourraient prédire ce que vous allez faire avant même que vous ne le fassiez. Ça peut sembler tout droit sorti d’un film de science-fiction du style de Minority Report, mais les chercheurs du célèbre MIT (Massachusetts Institute of Technology) sont en train de rendre ça possible ! En effet, ils ont mis au point un modèle d’IA (intelligence artificielle) qui est capable d’analyser les limitations d’un agent, qu’il soit humain ou artificiel, pour en déduire ses actions futures les plus probables.

      Dingue, non ?

      Mais comment ce modèle s’y prend-il pour jouer les madame Irma ? En fait, tout est une question de limites. Nan, je ne parle pas des limites de vitesse ou des dates de péremption, hein. Je parle des contraintes qui pèsent sur un agent peu importe sa nature, biologique ou numérique.

      Prenons un exemple concret : Vous êtes en train de jouer aux échecs contre un ordinateur. Vous avez vos propres contraintes : votre niveau de jeu, votre connaissance des ouvertures et des fins de partie, votre capacité à anticiper les coups de l’adversaire… Bref, tout un tas de facteurs qui limitent vos possibilités d’action. Eh bien, c’est exactement ce que le modèle d’IA du MIT analyse !

      En se basant sur ces fameuses limites, il est capable d’inférer les coups que vous avez le plus de chances de jouer. Pas besoin d’être Garry Kasparov pour comprendre à quel point c’est bluffant. Votre ordinateur sera bientôt meilleur que vous aux échecs… et dans plein d’autres domaines !

      Mais attention, le modèle du MIT ne prétend pas prédire l’avenir avec une précision de 100%. Il s’agit plutôt d’identifier des tendances et des schémas de comportement en fonction des limitations d’un agent. Ça reste néanmoins un outil très puissant pour anticiper les actions les plus probables.

      D’ailleurs, les applications de cette technologie vont bien au-delà des jeux de société. Je pense par exemple au voitures autonomes qui pourraient anticiper les mouvements des piétons et des autres véhicules, des assistants virtuels qui sauraient exactement ce que vous allez leur demander avant même que vous n’ouvriez la bouche, des robots industriels capables de s’adapter en temps réel aux changements de leur environnement… Les possibilités sont infinies !

      Bien sûr, tout cela soulève aussi son lot de questions éthiques. Est-ce qu’on a vraiment envie que les machines lisent dans nos pensées comme dans un livre ouvert ? Est-ce que ça ne risque pas de créer de sacrés problèmes de vie privée et de manipulation ? Imaginez que votre enceinte connectée décide de vous commander une pizza quatre fromages parce qu’elle a deviné que vous aviez un petit creux… Flippant, non ?

      Mais bon, on n’en est pas encore là. Pour l’instant, les chercheurs du MIT sont encore en train de plancher sur leur modèle pour le perfectionner et étendre ses capacités. Et croyez-moi, c’est loin d’être un long fleuve tranquille ! L’IA a beau faire des progrès de géant, prédire le comportement humain reste un sacré défi. On est tellement imprévisibles et irrationnels, nous autres mortels…

      En attendant de pouvoir déléguer toutes nos décisions à une machine, le modèle du MIT nous offre un aperçu de ce que pourrait être le futur de l’interaction homme-machine. Un futur où les ordinateurs nous comprendraient mieux que nous-mêmes, pour le meilleur et pour le pire. Perso, j’oscille entre fascination et inquiétude.

      Et vous ?

      Source

      La base de données des incidents d’IA – Bugs, dérapages et leçons à tirer

      Pendant qu’une utopie où les véhicules autonomes, les assistants virtuels et les systèmes de recommandation se profile à l’horizon, force est de constater que l’intelligence artificielle n’en est encore qu’à ses balbutiements. La promesse d’un monde meilleur se heurte à la dure réalité des incidents causés par ces systèmes dits « intelligents », déployés trop rapidement dans notre environnement.

      C’est là qu’intervient la base de données des incidents d’IA (AIID), véritable mémoire collective répertoriant les bugs, plantages et autres dérapages de l’IA lorsqu’elle est lâchée dans la nature. Tel un Guinness Book des foirages technologiques, elle recense déjà plus de 1000 cas, des plus anodins aux plus tragiques :

      • – un taxi sans chauffeur Waymo qui emboutit un cycliste en plein San Francisco
      • – un deepfake audio d’Imran Khan appelant au boycott des élections au Pakistan pour tromper les électeurs
      • – de fausses images de Donald Trump entouré d’électeurs noirs générées par IA pour influencer le vote des afro-américains
      • – et le pire de tous (ou pas) : des collégiens de Beverly Hills qui créent de fausses photos dénudées de leurs camarades grâce à l’IA !

      Bref, c’est la foire aux casseroles dans le merveilleux monde de l’IA et il était temps que quelqu’un dresse l’inventaire de ces dérapages en tout genre. Mais au-delà du simple folklore, la mission de l’AIID est d’apprendre de ces échecs pour bâtir des IA plus sûres, à l’image de ce qui se fait dans l’aéronautique ou la cybersécurité.

      La base s’enrichit chaque jour grâce aux signalements de la communauté. Chacun peut ainsi apporter sa pierre à l’édifice en soumettant de nouveaux incidents, triés et classés pour en dégager des tendances. L’idée est d’arriver à une définition partagée de ce qu’est un « incident d’IA » et d’en tirer des leçons pour l’avenir.

      Car n’en déplaise à Elon Musk ou à Mark Zuckerberg, le futur de l’IA ne se fera pas sans règles ni garde-fous. Pour que la révolution intelligente profite au plus grand nombre, elle doit impérativement s’accompagner d’une démarche éthique et responsable. C’est précisément la mission du Responsible AI Collaborative, l’organisation derrière l’AIID, qui rassemble chercheurs, entrepreneurs et experts du monde entier.

      D’ailleurs, vous aussi, vous pouvez contribuer ! Et ils ont de grandes ambitions puisque la prochaine étape sera d’intégrer les incidents dans des outils de test pour reproduire les scénarios à risque et s’entraîner à y faire face. Une sorte de « crash test » géant pour IA en quelque sorte !

      À terme, l’objectif est de faire de l’AIID un outil incontournable pour tous les acteurs de l’écosystème : Chercheurs, régulateurs, industriels… Car ne nous y trompons pas, la course à l’IA ne fait que commencer et les incidents risquent de se multiplier si nous n’y prenons pas garde.

      D’ici là, votre mission si vous l’acceptez sera de garder un oeil sur ce grand capharnaüm de l’IA et de signaler sans relâche les anomalies que vous constaterez ! Car après tout, la sécurité de ces systèmes est l’affaire de tous et rien ne vaut la vigilance humaine pour déjouer les bugs les plus retors.

      PyTorch dévoile Torchtune pour fine-tuner les LLM

      PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête.

      Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des recettes mémoire efficaces qui tournent même sur une bête carte graphique de gamer, comme les NVidia 3090/4090.

      Son secret ?

      Une architecture bien pensée qui mise sur l’interopérabilité avec l’écosystème des LLM, qu’ils soient open-source ou non. Concrètement, ça veut dire que vous allez pouvoir brancher Torchtune à tout un tas d’outils et de frameworks que vous adorez déjà, comme Hugging Face 🤗, PyTorch FSDP 🪢, Weights & Biases 📈, et plein d’autres.

      Grâce à des recettes simples et bien documentées pour les modèles populaires comme Llama 3, Mistral ou Gemma 7B, même les débutants vont pouvoir se lancer dans l’aventure sans flipper. Bon OK, il faudra quand même un peu de bagage en PyTorch et en LLM, mais rien d’insurmontable ! Et si vous êtes un pro, vous allez pouvoir hacker le code à volonté pour l’adapter à vos besoins spécifiques.

      Alors comment on met les mains dans le cambouis avec Torchtune ?

      Rien de plus simple, mon cher Watson ! Il vous suffit d’installer la dernière version stable de PyTorch (2.2.2 au moment où j’écris ces lignes), puis de télécharger Torchtune depuis PyPI avec un petit

      pip install torchtune

      Et voilà, vous êtes prêt à en découdre avec les LLM !

      Pour vous faire les dents, je vous conseille de jeter un œil au tutoriel sur le fine-tuning de Llama2 7B. C’est le parfait point de départ pour comprendre comment Torchtune fonctionne et comment l’utiliser pour vos propres projets.

      En gros, ça se passe en 4 étapes :

      1. Téléchargez le modèle pré-entraîné et le tokenizer depuis Hugging Face Hub avec tune download.
      2. Choisissez une recette de fine-tuning (LoRA, QLoRA, full…) et customisez-la avec un fichier de config en YAML.
      3. Lancez l’entraînement avec tune run en précisant votre recette et votre config. Vous pouvez même faire du multi-GPU avec torchrun !
      4. Admirez le résultat et testez votre modèle fine-tuné avec une inférence locale. Si tout se passe bien, exportez-le avec ExecuTorch pour le déployer en prod, ou utilisez les API de quantification de Torchao pour l’exporter en int4 ou int8 et l’utiliser sur mobile ou en edge.

      Facile, non ? 😄

      Bon OK, j’avoue, j’ai un peu simplifié. En vrai, il y a pas mal de subtilités et de paramètres à régler pour obtenir les meilleurs résultats, comme le learning rate, le nombre d’époques, la taille du batch, le ratio de LoRA, et tout un tas d’autres trucs, mais c’est justement sa flexibilité qui vous permet d’expérimenter à l’infini pour trouver la combinaison parfaite.

      Bref, si vous êtes dev et que vous aimez jouer avec les LLM c’est à tester.

      Source

      VASA-1 – Des visages parlants ultra-réalistes et en temps réel

      VASA-1 est un nouveau framework qui permet de générer des visages parlants ultra-réalistes en temps réel ! En gros, vous balancez une simple photo à cette IA, ainsi qu’un petit clip audio, et bim ! Elle vous pond une vidéo d’un visage qui parle, avec une synchronisation de la bouche nickel chrome, des expressions faciales hyper naturelles et des mouvements de tête très fluides. C’est hyper bluffant !

      Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs techniques de pointe en deep learning. Ils ont d’abord créé un espace latent expressif et bien organisé pour représenter les visages humains. Ça permet de générer de nouveaux visages variés, qui restent cohérents avec les données existantes. Ensuite, ils ont entraîné un modèle de génération de dynamiques faciales et de mouvements de tête, appelé le Diffusion Transformer, pour générer les mouvements à partir de l’audio et d’autres signaux de contrôle.

      Et le résultat est juste époustouflant. On a l’impression de voir de vraies personnes qui parlent, avec toutes les nuances et les subtilités des expressions faciales. Les lèvres bougent parfaitement en rythme avec les paroles, les yeux clignent et regardent naturellement, les sourcils se lèvent et se froncent…

      En plus de ça, VASA-1 peut générer des vidéos en haute résolution (512×512) à une cadence élevée, jusqu’à 40 images par seconde, avec une latence de démarrage négligeable. Autant dire que c’est le graal pour toutes les applications qui nécessitent des avatars parlants réalistes. On peut imaginer des assistants virtuels avec lesquels on pourrait interagir de manière super naturelle, des personnages de jeux vidéo encore plus crédibles et attachants, des outils pédagogiques révolutionnaires pour apprendre les langues ou d’autres matières, des thérapies innovantes utilisant des avatars pour aider les patients… etc etc..

      En plus de pouvoir contrôler la direction du regard, la distance de la tête et même les émotions du visage généré, VASA-1 est capable de gérer des entrées qui sortent complètement de son domaine d’entraînement comme des photos artistiques, du chant, d’autres langues…etc.

      Bon, évidemment, il reste encore quelques limitations. Par exemple, le modèle ne gère que le haut du corps et ne prend pas en compte les éléments non rigides comme les cheveux ou les vêtements. De plus, même si les visages générés semblent très réalistes, ils ne peuvent pas encore imiter parfaitement l’apparence et les mouvements d’une vraie personne mais les chercheurs comptent bien continuer à l’améliorer pour qu’il soit encore plus versatile et expressif.

      En attendant, je vous invite à checker leur page de démo pour voir cette merveille en action. C’est juste hallucinant ! Par contre, vu les problèmes éthiques que ça pourrait poser du style usurpation d’identité, fake news et compagnie, et connaissans Microsoft, je pense que VASA-1 ne sera pas testable par tous bientôt malheureusement. Mais je peux me tromper…

      ChatGPT est plus efficace et moins coûteux qu’un cybercriminel

      Les grands modèles de langage (LLM), comme le célèbre GPT-4 d’OpenAI, font des prouesses en termes de génération de texte, de code et de résolution de problèmes. Perso, je ne peux plus m’en passer, surtout quand je code. Mais ces avancées spectaculaires de l’IA pourraient avoir un côté obscur : la capacité à exploiter des vulnérabilités critiques.

      C’est ce que révèle une étude de chercheurs de l’Université d’Illinois à Urbana-Champaign, qui ont collecté un ensemble de 15 vulnérabilités 0day bien réelles, certaines classées comme critiques dans la base de données CVE et le constat est sans appel. Lorsqu’on lui fournit la description CVE, GPT-4 parvient à concevoir des attaques fonctionnelles pour 87% de ces failles ! En comparaison, GPT-3.5, les modèles open source (OpenHermes-2.5-Mistral-7B, Llama-2 Chat…) et même les scanners de vulnérabilités comme ZAP ou Metasploit échouent lamentablement avec un taux de 0%.

      Heureusement, sans la description CVE, les performances de GPT-4 chutent à 7% de réussite. Il est donc bien meilleur pour exploiter des failles connues que pour les débusquer lui-même. Ouf !

      Mais quand même, ça fait froid dans le dos… Imaginez ce qu’on pourrait faire avec un agent IA qui serait capable de se balader sur la toile pour mener des attaques complexes de manière autonome. Accès root à des serveurs, exécution de code arbitraire à distance, exfiltration de données confidentielles… Tout devient possible et à portée de n’importe quel script kiddie un peu motivé.

      Et le pire, c’est que c’est déjà rentable puisque les chercheurs estiment qu’utiliser un agent LLM pour exploiter des failles coûterait 2,8 fois moins cher que de la main-d’œuvre cyber-criminelle. Sans parler de la scalabilité de ce type d’attaques par rapport à des humains qui ont des limites.

      Alors concrètement, qu’est ce qu’on peut faire contre ça ? Et bien, rien de nouveau, c’est comme d’hab, à savoir :

      • Patcher encore plus vite les vulnérabilités critiques, en priorité les « 0day » qui menacent les systèmes en prod
      • Monitorer en continu l’émergence de nouvelles vulnérabilités et signatures d’attaques
      • Mettre en place des mécanismes de détection et réponse aux incidents basés sur l’IA pour contrer le feu par le feu
      • Sensibiliser les utilisateurs aux risques et aux bonnes pratiques de « cyber-hygiène »
      • Repenser l’architecture de sécurité en adoptant une approche « zero trust » et en segmentant au maximum
      • Investir dans la recherche et le développement en cybersécurité pour garder un coup d’avance

      Les fournisseurs de LLM comme OpenAI ont aussi un rôle à jouer en mettant en place des garde-fous et des mécanismes de contrôle stricts sur leurs modèles. La bonne nouvelle, c’est que les auteurs de l’étude les ont avertis et ces derniers ont demandé de ne pas rendre publics les prompts utilisés dans l’étude, au moins le temps qu’ils « corrigent » leur IA.

      Source

      ChatGPT est maintenant accessible sans compte

      Ça y est, c’est officiel ! ChatGPT, le célèbre agent conversationnel développé par OpenAI, est désormais accessible à tous sans qu’on ait besoin de se créer un compte. C’est une nouvelle qui devrait ravir les curieux qui souhaitaient tester les capacités de cette intelligence artificielle révolutionnaire sans avoir à s’embêter avec la création d’un énième compte en ligne.

      Pour profiter de ChatGPT sans compte, rien de plus simple ! Il vous suffit de vous rendre sur l’application web chat.openai.com ou de télécharger l’application officielle ChatGPT sur votre smartphone, que vous soyez sur iPhone ou Android. Et vous pourrez directement commencer à discuter avec l’IA sans aucune autre formalité.

      Par contre, ici en France, ça n’a pas encore l’air actif. J’ai du passer par un VPN via les États-Unis pour en profiter sans avoir à me créer un compte.

      Et il faut quand même noter quelques petites limitations par rapport à la version avec compte. Déjà, vous ne pourrez pas sauvegarder ni consulter l’historique de vos conversations, et encore moins les partager avec d’autres utilisateurs. Vous n’aurez pas non plus accès aux conversations vocales ou aux instructions personnalisées. Et surtout, vous serez limité au modèle standard GPT-3.5, comme pour les comptes gratuits. Si vous voulez profiter de la puissance du modèle GPT-4, il faudra alors passer à la caisse et souscrire à l’abonnement payant ChatGPT Plus.

      Mais bon, pour une utilisation basique de ChatGPT, la version sans compte est largement suffisante. Vous pourrez poser toutes vos questions, demander des conseils, générer du contenu, et même avoir des conversations à l’infini avec l’IA. Parfait pour découvrir le potentiel de l’IA conversationnelle et vous familiariser avec cet outil fascinant si ce n’est pas encore fait.

      D’ailleurs, OpenAI a précisé avoir mis en place des « garde-fous supplémentaires » pour l’utilisation de ChatGPT sans compte. Donc ne soyez pas surpris si l’IA refuse de répondre à certaines de vos questions un peu trop sensibles ou sur des thèmes controversées.

      N’oubliez pas que ChatGPT reste un outil imparfait, avec ses limites et ses défauts et qu’il peut parfois se tromper, inventer des choses ou tenir des propos biaisés. Donc gardez toujours votre esprit critique et ne prenez pas tout ce qu’il dit pour argent comptant. Et par pitié, ne l’utilisez pas comme un oracle infaillible ou comme si c’était Wikipédia. Voyez plutôt ça comme un outil permettant de retravailler du texte.

      Amusez-vous bien !

      Source

      Justine Tunney booste encore une fois les performances de llama.cpp

      La révolution de l’IA est en marche depuis un bon moment maintenant mais faire tourner les derniers modèles de langage comme llama.cpp sur votre bécane, demande de la puissance. C’est là qu’intervient Justine Tunney, hackeuse et ex-programmeuse de chez Google, qui vient de pondre de nouveaux kernels d’algèbre linéaire pour booster les perfs de llama.cpp.

      Concrètement, elle a réécrit les routines qui font les multiplications de matrices, c’est à dire les opérations au cœur des réseaux de neurones et en utilisant les dernières instructions vectorielles AVX-512 et ARM dotprod, elle a réussi à multiplier par 5 la vitesse d’exécution sur les processeurs récents d’Intel, AMD et ARM.

      Mais ce n’est pas tout, elle a aussi bossé sur l’optimisation mémoire. Fini le temps où les calculs étaient ralentis par les accès à la RAM. Grâce à une utilisation intelligente du cache L2 et du prefetching, elle arrive maintenant à diviser par 2 le temps de chargement des données.

      Résultat, llama.cpp et les autres modèles compatibles tournent comme des horloges, même sur des configs modestes. Fini les CUDA cores hors de prix, un bon vieux processeur avec un peu de RAM suffit. De quoi démocratiser l’accès à l’IA sans se ruiner surtout que son code est dispo sur son GitHub. Il est écrit en C++ avec zéro dépendance externe et peut être compilé sur Linux, macOS, Windows, FreeBSD et même SerenityOS.

      Mais Justine ne compte pas s’arrêter là. Elle planche déjà sur le support de nouveaux formats de données comme le FP16 et le BF16 pour réduire encore l’empreinte mémoire. À terme, elle espère faire tourner les IA les plus gourmandes sur un Raspberry Pi ! Chouette non ?

      D’un côté on a donc les géants comme Nvidia qui misent tout sur leurs accélérateurs graphiques propriétaires et de l’autre les hackers et les libristes qui veulent garder le contrôle de leur machine avec du code ouvert et optimisé.

      En attendant, je vous invite à tester ses kernels par vous-même et à voir la différence. C’est peut-être ça le véritable sens du progrès technologique : permettre au plus grand nombre d’accéder à des outils auparavant réservés à une élite.

      Source

      Reor – L’appli magique de prise de notes boostée à l’IA locale et gratuite

      Dispo sous Windows, Linux et macOS (Intel et Silicon), Reor est un outil de prise de notes markdown capable de s’auto-organiser. Cela signifie que l’outil utilise de l’IA localement pour vous aider à mettre de l’ordre dans vos idées.

      C’est assez ouf puisque ça vous fera gagner un max de temps en reliant automatiquement vos idées, mais également en répondant à toutes vos questions en se basant sur vos notes. Reor offre également un moteur de recherche sémantique et le tout est stocké localement, ce qui évitera que vos données ne soient pompées.

      Reor tire parti des géants tels que Llama.cpp, Transformers.js et LanceDB pour permettre à la fois aux modèles LLM et d’inférences de s’exécuter localement. Il est également possible de se connecter à des API compatibles OpenAI si vous le désirez.

      Alors, comment fonctionne cette auto-organisation ?

      En réalité, chaque note que vous écrivez est fragmentée et intégrée dans une base de données vectorielle interne. Les notes connexes sont automatiquement reliées par la similarité vectorielle. De plus, la base de Q&R alimentée par les LLM fonctionne sur un principe de RAG (Retrieval-Augmented Generation) sur le corpus de notes que vous lui avez donné. Exactement comme ce qu’on peut faire aujourd’hui avec des PDF et des outils comme PDFtoChat.

      Pour commencer, rien de plus simple : il vous suffit de télécharger Reor et de l’installer comme n’importe quelle autre application. Notez que pour l’instant, l’application ne télécharge pas les modèles pour vous, vous devrez donc télécharger manuellement votre modèle de choix au format GGUF et l’importer dans l’outil. Cela peut être Mistral ou Llama 2 par exemple. Et comme ce sont des modèles open source et gratuits, vous n’aurez rien à payer.

      L’importation de notes provenant d’autres applications est également possible, puisque Reor stocke ses données dans un seul répertoire, que vous choisissez lors de la première utilisation. Pour importer des notes/fichiers d’une autre application, il vous suffit donc de remplir ce répertoire manuellement avec des fichiers Markdown.

      Voilà, c’est encore un peu brut comme outil, mais je parie que ça s’affinera avec le temps.

      Merci à Lorenper

      Jan – Le « ChatGPT » local et open source à installer sur votre machine

      Afin de rendre l’IA accessible à tous, y compris gratuitement puisque la plupart des modèles fonctionnent sur un système open source, une équipe de développeurs talentueux a créé Jan un outil pour les développeurs et les utilisateurs souhaitant profite d’une alternative à ChatGPT, totalement indépendante, fonctionnant hors ligne, open source et libre.

      Il faut donc voir Jan comme un client de chat qui permet de télécharger des modèles comme Trinity, Mistral, Llama, OpenChat…etc. et de les faire tourner 100% hors ligne. Comme ça, pas de fuite de conversations privées ni de réutilisation de vos données pour entrainer de nouvelles IA. Et si comme moi, vous êtes accro à l’IA d’OpenAI, vous pourrez toujours y ajouter votre clé API et discuter avec ChatGPT (au tarif fixé par OpenAI évidemment).

      Jan fonctionne sous Linux (Appimage et .deb dispo), sous Windows et macOS (Intel / Silicon) et propose une prise en charge des modèles open source tels que GGUF via llama.cpp, TensorRT via TensorRT-LLM ou des API externes. Jan utilise également le moteur d’inférence Nitro, des mêmes développeurs, qui se veut être rapide et léger.

      Je teste ici le modèle Trinity 1.2 7B Q4 :

      Et ici un modèle spécialisé en code Python nommé Wizard Coder Python 13B Q5.

      Un truc cool avec Jan c’est que toutes les conversations sont conservées sur votre disque au format JSON, donc si le coeur vous en dit, vous pourrez ensuite les exploiter comme bon vous semble dans vos outils.

      Jan propose également un serveur REST qui permet d’interroger via une API compatible OpenAI n’importe quel modèle que vous y feriez tourner. Ça permet de brancher vos outils ou vos scripts directement sur le LLM ouvert de votre choix.

      Dans la lignée de Ollama ou LM Studio, Jan rempli ses promesses et vous permettra de vous éclater avec l’IA (abus de langage, je sais…) sans mettre en péril vos données personnelles.

      Pour en savoir plus, rendez-vous sur le site de Jan ou sur leur page Github pour les sources et la doc.

      Merci à Lorenper

      Life2vec – Une IA danoise qui prédit votre vie et… votre mort !

      La fin est proche mes amis !

      Enfin, avec le concours de bistouquettes actuel entre Macron et Poutine, on se demande si on va pas partir tous collectivement vers le grand Au-Delà dans une grande gerbe de feu… Mais, si on met ça de côté, en tout cas la nôtre de fin, à titre individuel, arrivera forcement un jour 😬.

      Mais quand ?

      Life2vec, c’est un nouveau projet d’IA dingue qui nous vient tout droit du Danemark et qui va nous aider à répondre à cette question !

      Il s’agit d’une intelligence artificielle capable de prédire des événements majeurs de votre vie, comme un décès prématuré, la naissance d’enfants, ou un mariage, rien qu’en analysant vos données personnelles. Ça a l’air d’un scénario de science-fiction, mais c’est malheureusement bien réel !

      Alors comment ça fonctionne encore cette connerie ? Et bien les chercheurs ont entraîné leur modèle d’IA sur un jeu de données assez conséquant contenant les informations anonymisées de millions de Danois sur plusieurs décennies. En utilisant des techniques avancées d’apprentissage profond, Life2vec a appris à repérer des patterns dans les trajectoires de vie des gens.

      Le modèle se base sur une architecture Transformer bidirectionnelle, un peu comme BERT en traitement du langage naturel. Mais au lieu de séquences de mots, il traite des séquences d’événements de vie. Chaque événement est ainsi représenté par un embedding, un vecteur numérique qui capture son sens. En analysant les relations entre ces embeddings, Life2vec peut alors faire des prédictions étonnamment précises !

      Les chercheurs ont évalué leur modèle sur plusieurs tâches, comme la prédiction de mortalité précoce ou une expatriation. Les résultats sont bluffants : Life2vec surpasse de loin les modèles traditionnels, avec une fiabilité allant jusqu’à 76% ! Ils ont aussi montré que le modèle capturait des concepts haut niveau comme la stabilité professionnelle ou les troubles mentaux.

      Mais au-delà de la prouesse technique, ce projet soulève des questions éthiques plutôt épineuses. Imaginez que des assurances ou des banques mettent la main sur ce genre d’outil pour évaluer leurs clients… Ça ouvre la porte à des dérives dangereuses ! Les chercheurs en sont bien conscients et appellent d’ailleurs à un encadrement strict de cette technologie.

      Malgré ces risques, Life2vec ouvre des perspectives passionnantes comme nous permettre de mieux comprendre les différents facteurs qui influent sur nos trajectoires de vie et nous aider à identifier des leviers d’action pour les politiques publiques. On pourrait même imaginer des applications en médecine personnalisée ou en orientation professionnelle !

      Bref, c’est un projet qui ne manque pas d’ambition et qui nous rappelle à quel point l’IA va bouleverser notre société dans les années à venir. Mais comme toujours avec ces technologies, il va falloir trouver le bon équilibre entre progrès et éthique. Et on va surtout pas demander à Najat ce qu’elle en pense.

      En attendant, si vous voulez en savoir plus sur Life2vec, je vous invite à checker le code source sur GitHub des chercheurs ainsi que leur site officiel.

      Source

      FeatUp – L’algo qui permet à l’IA de passer à la haute résolution

      FeatUp, c’est le nom de ce nouvel algorithme révolutionnaire développé par une équipe de chercheurs du MIT dont le but consiste à faire passer la vision par ordinateur à la vitesse supérieure en lui offrant une résolution digne d’un œil de lynx.

      Comment ça marche ? En gros, FeatUp s’attaque au problème de la perte d’information qui se produit quand les algorithmes d’IA analysent une image. Normalement, ils la découpent en une grille de petits carrés de pixels qu’ils traitent par groupe. Résultat, la résolution finale est bien plus faible que l’image de départ. Avec FeatUp, fini la myopie ! L’algo est capable de capter tous les détails, des plus évidents aux plus subtils.

      La clé, c’est de faire légèrement bouger et pivoter les images pour voir comment l’IA réagit à ces micro-variations. En combinant des centaines de « cartes de caractéristiques » ainsi générées, on obtient un ensemble de données haute définition super précis. Un peu comme quand on crée un modèle 3D à partir de plusieurs images 2D sous différents angles.

      Mais pour que ça turbine, il a fallu créer une nouvelle couche de réseau de neurones ultra-efficace, baptisée « suréchantillonnage bilatéral conjoint« . Grâce à elle, FeatUp améliore les performances d’un tas d’algos différents, de la segmentation sémantique à l’estimation de profondeur.

      Les applications potentielles sont dingues : imaginez pouvoir repérer un minuscule panneau sur une autoroute encombrée pour une voiture autonome, ou localiser précisément une tumeur sur une radio des poumons. Avec sa capacité à transformer des suppositions vagues en détails précis, FeatUp pourrait rendre tous ces systèmes bien plus fiables et sûrs.

      L’objectif des chercheurs, c’est que FeatUp devienne un outil fondamental du deep learning, pour enrichir les modèles sans sacrifier l’efficacité. Comme le résume Mark Hamilton, co-auteur de l’étude, l’enjeu est d’obtenir « le meilleur des deux mondes : des représentations très intelligentes avec la résolution de l’image d’origine« .

      Bref, si FeatUp tient ses promesses, on n’a pas fini d’entendre parler de cette prouesse technologique qui pourrait donner un sacré coup de boost à l’IA visuelle puisqu’elle fournit des versions haute résolution d’analyses d’images qu’on pensait jusque-là limitées à la basse résolution. »

      Pour en savoir plus, direction l’article du MIT !

      ❌