Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Podgenai – Générez des podcasts de A à Z avec l’IA

Par : Korben
17 septembre 2024 à 07:00

Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ?

Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil.

Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script complet et structuré pour votre émission. Et pas besoin d’être un expert, puisque l’application vulgarise les concepts techniques tout en rendant ça captivant pour votre audience.

L’outil transforme donc directement le texte en audio grâce à une synthèse vocale de bonne qualité qui vous permet de choisir parmi plusieurs voix. Le son produit est clair, naturel et dynamique et vous avez également un contrôle total sur le contenu généré puisqu’il est possible d’affiner les contenus, d’ajuster la longueur de l’épisode ou encore d’insérer vos propres commentaires et anecdotes. Bref, tout ce qu’il faut pour créer un podcast unique en anglais par contre… A voir ce que ça rend sur un texte en français… y’aura peut-être un petit effet Jane Birkin.

Économie de matos, de temps et surtout c’est accessible à tous. Alors bien sûr, je pense que (pour le moment), ça ne peut pas arriver au niveau d’un vrai podcast fait par un vrai humain… mais pour produire vos propres podcast thématiques rapidement afin de défricher un sujet qui vous tient à cœur et écouter tout ça en voiture lors de votre prochain déplacement, je trouve ça plutôt cool.

Vous l’aurez compris, pour moi c’est plutôt à réserver à des fins personnelles que pour une diffusion grand publique. Mais ça n’a pas arrêté les créateurs de l’outil qui ont mis en ligne leur podcast 100% généré par IA à des fins de démo. Ça vous permettra de vous faire un avis.

Toutes les infos sont ici.

Dot – L’app IA locale pour interagir avec vos documents (RAG)

Par : Korben
11 septembre 2024 à 07:00

Vous rêvez d’exploiter la puissance des grands modèles de langage pour interagir avec vos documents, mais vous ne voulez pas que vos données quittent votre ordinateur ? Et bien j’ai ce qu’il vous faut !

Admettons que vous avez une tonne de documents sur votre disque dur, des PDFs, des fichiers Word, des présentations PowerPoint, des feuilles de calcul Excel et même des fichiers Markdown… Vous aimeriez pouvoir obtenir des réponses à vos questions à partir de leur contenu, avoir des résumés, générer de nouvelles idées à partir de ces informations… Bref, avoir un genre d’assistant intelligent qui pourrait comprendre et manipuler toutes ces données. Et bien c’est exactement ce que propose Dot !

Au cœur de son fonctionnement, on trouve un modèle de langage pré-entraîné, en l’occurrence une version de Mistral 7B au moment où j’écris ces lignes, qui tourne en local et permet de faire ce qu’on appelle du « Retrieval Augmented Generation » ou RAG.

En gros, ça veut dire que l’IA ne se contente pas de générer du texte à partir de ce qu’elle a appris, mais qu’elle va aussi chercher des informations pertinentes dans une base de connaissances locale. Vous sélectionnez un dossier contenant les documents que vous voulez indexer, Dot va les analyser, les découper en morceaux, calculer des embeddings et construire un index permettant de retrouver rapidement les passages les plus pertinents pour une requête donnée.

Et ensuite, vous pouvez discuter avec Dot comme vous le feriez avec un assistant IA classique. Vous lui posez une question, et il utiliser ses connaissances générales pour formuler une réponse, mais aussi aller piocher dans votre base documentaire pour l’enrichir avec des informations spécifiques. Du coup, ça booste d’un cran la pertinence et la qualité des réponses obtenues !

Bien sûr, comme Dot tourne exclusivement en local, vous n’avez pas à vous inquiéter pour la confidentialité de vos données puisque rien ne quitte jamais votre machine. C’est un gros avantage par rapport aux solutions cloud qui vont envoyer vos documents sur des serveurs distants. Et si vous avez besoin d’un coup de main pour des tâches qui ne nécessitent pas forcément d’accéder à vos documents, Dot intègre un mode « Big Dot ». Vous basculez dessus en un clic, et vous vous retrouvez avec un assistant IA généraliste, capable de tenir des conversations sur n’importe quel sujet, d’aider à la rédaction, de faire du brainstorming, etc. C’est comme avoir un ChatGPT en local sous la main à tout moment.

Si ça vous dit de tester, c’est gratuit, open source, dispo sous macOS, Windows, Linux et disponible ici : https://dotapp.uk/

LLocalSearch – Le moteur de recherche local basé sur des agents IA

Par : Korben
25 août 2024 à 07:00

LLocalSearch est un moteur de recherche qui fonctionne entièrement en local sur votre machine, qui utilise des agents IA pour effectuer des recherches directement sur votre ordinateur.

Le concept est simple mais diablement efficace. Lorsque vous lui posez une question, le système va enchaîner plusieurs modèles de langage pour trouver la réponse la plus pertinente. Tout le processus est transparent, vous pouvez suivre en temps réel la progression des agents et voir comment ils arrivent à la réponse finale, tout ça sans qu’aucune donnée ne soit envoyée sur des serveurs distants.

Mais il ne se contente pas d’être un simple moteur de recherche en local. Il propose également des fonctionnalités avancées comme la possibilité de poser des questions de suivi pour affiner votre requête initiale. Vous pouvez ainsi avoir un véritable dialogue avec le système pour obtenir exactement l’information dont vous avez besoin.

Un autre atout de LLocalSearch est sa capacité à fonctionner sur du matériel abordable. Pas besoin d’une machine de guerre avec des dizaines de gigaoctets de RAM et une carte graphique dernier cri. Le système est optimisé pour tourner sur des configurations modestes, comme le montre la vidéo de démo qui utilise un modèle de seulement 7 milliards de paramètres.

Côté interface, LLocalSearch mise sur la simplicité et l’efficacité. Que vous utilisiez le système sur ordinateur ou sur mobile, vous bénéficiez d’une interface épurée avec un champ de recherche central et un affichage clair des résultats, le tout avec un joli design soigné qui propose un mode clair et un mode sombre pour s’adapter à vos préférences.

De plus, il est très simple à déployer grâce à Docker. Quelques lignes de commande suffisent pour lancer le système et commencer à l’utiliser.

git clone https://github.com/nilsherzig/LLocalSearch.git
cd ./LLocalSearch
# 🔴 vérifier les variables d'environnement dans le fichier compose (et le fichier `env-example`) et les changer si nécessaire
docker-compose up 

Bien sûr, comme tout projet en phase de démarrage, LLocalSearch n’est pas exempt de bugs et de limitations. Toutes les fonctionnalités prévues ne sont pas encore implémentées et il faudra sans doute un peu de temps avant d’arriver à un système aussi complet et robuste que les moteurs de recherche en ligne que nous connaissons. Mais le potentiel est là et il ne fait aucun doute que ça va rapidement progresser grâce à une communauté open source motivée et passionnée.

En attendant, n’hésitez pas à tester cet outil et à vous faire votre propre idée.

Auto-News – L’agrégateur de news automatisé par IA

Par : Korben
24 août 2024 à 07:00

Ce serait cool si on pouvait avoir accès directement aux informations les plus pertinentes pour nous, sans être submergé par le bruit constant des trucs sans intérêt. Et bien c’est exactement ce que propose Auto-News, un agrégateur d’actu personnel qui exploite la puissance de l’intelligence artificielle pour vous aider à vous informer de manière plus efficace.

Notre temps étant précieux, il est crucial de bien l’utiliser et malheureusement, tout ces moments qu’on passe à chercher, filtrer et organiser le contenu provenant de différentes sources, c’est un peu du gâchis.

Cet outil est donc capable d’agrèger les flux de diverses sources telles que Twitter, RSS, YouTube, des articles web, Reddit et même vos notes personnelles et grâce à l’utilisation de modèles de langage comme ChatGPT, il est capable de résumer et de filtrer le contenu, éliminant ainsi plus de 80% du bruit.

Comme ça, vous pouvez rester concentré sur la lecture des actus qui vous intéressent vraiment, en fonction de vos centres d’intérêt, tout en restant aligné sur vos objectifs. N’oubliez pas quand même de mettre Korben.info dans vos sources :))

Mais Auto-News va encore plus loin puisqu’il est capable de générer des listes de tâches à partir de vos notes. Il peut également les organiser en les résumant avec les informations clés et y’a même une fonctionnalité expérimentale appelée « Deepdive » qui grâce à un agent de recherche web et à l’outil Autogen de Microsoft, vous permet d’explorer en profondeur des sujets qui vous passionnent.

Côté technique, Auto-News prend en charge plusieurs backends d’IA, dont OpenAI ChatGPT et Google Gemini. L’interface utilisateur est basée sur Notion, ce qui signifie que vous pouvez y accéder de n’importe où, que ce soit via un navigateur web ou une application mobile. Son déploiement est plutôt flexible, avec une prise en charge de Docker Compose et de Kubernetes donc ça peut s’intégrer facilement dans votre flux de travail.

A découvrir ici.

Perplexica – Le moteur de recherche open source propulsé à l’IA

Par : Korben
1 août 2024 à 11:00

Perplexica est un moteur de recherche gratuit et transparent, qui comprend ce que vous lui demandez et qui vous trouve pile poil ce que vous cherchez, le tout boosté à l’intelligence artificielle dernière génération. Ça vous parle, non ?

Ah bah oui c’est comme Perplexity.ai sauf que c’est gratuit, open source et que ça vous permet de fouiller le web en profondeur pour dénicher les réponses à toutes vos questions. Pour cela, l’outil utilise des algorithmes d’apprentissage automatique basés notamment sur la recherche par similarité sémantique. En gros, il est capable de piger le sens de votre question et de trouver les sources les plus pertinentes.

Comme ça, vous obtenez des réponses claires et sourcées, servies sur un plateau d’argent sans avoir besoin de passer des heures à éplucher les pages de résultats pour trouver l’info qui vous intéresse.

Pas de cookies qui vous espionnent ni de revente de données personnelles en douce et vos recherches restent confidentielles. Côté fonctionnalités, Perplexica propose plusieurs modes de recherche bien pratiques :

  • Le mode Copilot (encore en développement) : il génère des requêtes pour trouver les sources Internet les plus pertinentes. Plutôt que d’utiliser uniquement le contexte fourni par SearXNG, il visite directement les meilleurs résultats pour trouver les sources les plus adaptées à votre question.
  • Le mode Normal : il traite votre requête et effectue une recherche web classique.
  • Les Focus Modes : des modes spécialisés pour répondre à des besoins spécifiques, comme la recherche académique, la recherche YouTube, les calculs via Wolfram Alpha ou encore la recherche Reddit pour les discussions et avis.

Et niveau technique, il utilise un meta-moteur de recherche bien fichu qui s’appelle SearXNG. C’est lui qui récupère les résultats, les trie, les recoupe, pour ne garder que la crème de la crème. L’avantage, c’est que vous avez toujours des infos à jour, sans latence. Et comme je le disais en intro, il s’appuie aussi sur des modèles de langage locaux comme Llama3 et Mixtral, via l’API Ollama ce qui lui permet d’affiner encore plus les résultats.

Et pour l’installer, c’est super simple :

  1. Clonez le dépôt GitHub de Perplexica : git clone https://github.com/ItzCrazyKns/Perplexica.git
  2. Renommez le fichier sample.config.toml en config.toml et remplissez les champs nécessaires (clé API, etc.)
  3. Lancez la commande docker compose up -d
  4. Attendez quelques minutes que l’installation se termine
  5. Accédez à Perplexica via http://localhost:31337 depuis votre navigateur

Une fois que c’est en place, vous pouvez même utiliser Perplexica comme moteur de recherche par défaut dans votre navigateur. Il suffit d’aller dans les paramètres, d’ajouter un nouveau moteur de recherche avec l’URL http://localhost:31337/?q=%s et le tour est joué !

Après, forcément, c’est encore un jeune projet, donc il y a des petits trucs à peaufiner et les devs planchent notamment sur la finalisation du mode Copilot, l’ajout d’une page de paramètres, de fonctionnalités comme l’historique de recherche, et le support des modèles de langage locaux.

Mais même en l’état, je trouve que ça vaut grave le coup de tester Perplexica, ne serait-ce que pour voir à quoi peut ressembler un moteur de recherche IA à la fois éthique et transparent ^^.

Remerciement spécial à Lorenper pour l’info !

Auto-News – L’agrégateur de news qui vous permet d’éviter le « bruit »

Par : Korben
20 juin 2024 à 07:00

Auto-News est un agrégateur de news automatisé boosté à l’IA qui rassemble vos sources favorites – tweets, RSS, YouTube, articles web, Reddit, même vos petites notes perso. Puis c’est la magie de l’IA qui analyse tout ça en deux temps trois mouvements, résume le contenu à vitesse grand V, et vous sert sur un plateau les pépites qui matchent avec vos centres d’intérêt. Le reste, poubelle ! Comme ça, fini le tri bien pénible.

Vous créez simplement une page sur Notion comme point d’entrée, vous renseignez vos petits tokens chéris, et voilà le travail ! Auto-News va gentiment créer tout un joli système de dossiers et de bases de données pour ranger vos contenus. Il vous suffira alors d’indiquer vos flux RSS favoris, vos comptes Twitter et Reddit à suivre, et hop, la machine est lancée !

L’outil est également capable de générer des transcriptions pour les vidéos YouTube et les articles web, histoire que vous puissiez les parcourir en diagonale, et grâce à ses supers pouvoirs d’IA, il vous concocte même des listes de tâches à partir de vos notes et réflexions.

Côté technique, c’est du solide puisque ça tourne sous Linux ou MacOS, avec Docker pour faciliter le déploiement et le top du top, c’est son interface façon Notion utilisable depuis votre iPhone, votre Android ou n’importe quel navigateur.

Parfait pour dire adieu à l’infobésité et découvrir le plaisir d’une lecture personnalisée. Pour plus d’infos, c’est par ici.

01 – L’appareil open-source basé sur un modèle de langage IA

Par : Korben
13 juin 2024 à 07:00

Imaginez un appareil qui comprend tout ce que vous lui dites, qui répond à vos questions avec intelligence et s’adapte à vos besoins… Et bien c’est exactement ce que propose le projet 01, un framework open-source qui allie intelligence artificielle et interface vocale.

Inspiré par l’iconique ordinateur de Star Trek, et développé par les mêmes personnes que ceux qui ont créé Open Interpreter que j’adore, 01 ambitionne de devenir le GNU/Linux des assistants vocaux. Son écosystème ouvert et modulaire permet aux développeurs de créer des applications innovantes et de personnaliser l’expérience utilisateur. Comme ça, que vous soyez maker ou un néophyte curieux, vous allez pouvoir construire votre propre appareil 01 en suivant les instructions détaillées fournies sur le dépôt GitHub.

Le modèle 01 Light, basé sur un ESP32, est un excellent point de départ pour découvrir cette technologie fascinante. Évidemment, tout est open source et vous pouvez créer votre propre device ou le faire tourner sur un appareil existant.

Pour une expérience optimale, 01 fonctionne de pair avec un serveur qui s’exécute sur votre ordinateur personnel ou votre NAS et qui grâce à des outils comme Whisper pour la reconnaissance vocale et GPT pour la génération de réponses, permet des interactions naturelles et pertinentes.

Tout cela est rendu possible notamment grâce au format LMC (Language Model Computer), inspiré par le concept de « LLM OS » d’Andrej Karpathy. 01 utilise donc un modèle de langage qui interprète du code pour réagir à des événements système. Les messages LMC sont donc une extension du format d’OpenAI en ajoutant un rôle « ordinateur » qui exécute du code Python directement dans les instructions système.

Son architecture flexible permet de l’intégrer à une multitude d’objets du quotidien, de l’assistant vocal au robot domestique en passant par la voiture intelligente. Les possibilités sont infinies et ne demandent qu’à être explorées.

En tant que projet open-source, 01 compte sur une communauté dynamique de contributeurs pour se développer et s’améliorer et y’a même un serveur Discord pour échanger avec d’autres enthousiastes du projet.

Myth Maker AI – Plongez dans des récits interactifs époustouflants

Par : Korben
10 juin 2024 à 07:00

Myth Maker AI est un jeu créé par les passionnés de Story Tools Studio, qui vous plonge dans un univers fantastique où vous êtes le héros de votre propre aventure. Grâce au moteur MUSE (Modular User Story Engine), chaque choix que vous faites a un impact réel sur le déroulement de l’histoire grâce à l’IA qui s’adapte à vos décisions en temps réel.

Lorsque vous débutez une partie, vous choisissez votre personnage principal puis l’IA prend le relais et tisse une intrigue sur mesure, riche en rebondissements et en défis à relever.

Ce qui rend Myth Maker AI si spécial, c’est surtout sa capacité à créer un contenu multimodal d’une richesse inégalée. Et des images saisissantes aux animations fluides en passant par une bande-son envoûtante, chaque élément contribue à vous immerger totalement dans cet univers enchanteur. Vous aurez réellement l’impression d’être le héros d’un film d’aventure épique dont vous êtes le seul maître à bord.

Il ouvre également aussi la voie à de nouvelles expériences multijoueurs où chacun peut laisser libre cours à sa créativité dans monde partagé où les histoires s’entremêlent et où vos choix ont des répercussions sur les aventures des autres joueurs. Bref, vous l’aurez compris, les possibilités sont infinies !

Si ça vous dit de tester, rendez-vous sur https://mythmaker.ai/.

APISR – Upscaling d’animes en temps réel

Par : Korben
31 mai 2024 à 07:00

Comme beaucoup d’entre vous, j’ai été élévé au Club Dorothée et malheureusement, en 2024, tous ces animés de notre enfance, de Goldorak aux Chevaliers du Zodiaque, en passant par Nicky Larson, ont quand même mal vieilli. Ah si seulement, on pouvait les améliorer pour les remettre graphiquement au goût du jour… Et bien bonne nouvelle, c’est possible grâce au projet APISR.

Cet outil utilise différentes techniques directement inspirées du processus de production des animes afin de proposer un upscaling vraiment spécialisé pour ce type de vidéos. APISR sélectionne ainsi les frames les moins compressées et les plus riches en informations pour en faire un dataset qui servira alors à améliorer les images, en éliminant les artéfacts de dégradation et en retravaillant les lignes déformées ou estompées des dessins.

Et le résultat est bluffant comme vous pouvez le voir ici sur la démo. C’est génial puisque les fans d’animes vont pouvoir revoir les classiques de leur jeunesse avec une qualité digne des meilleures productions actuelles, le tout en temps réel.

En attendant de voir ces versions remasterisées grâce à des players ou des outils qui n’existent pas encore, vous pouvez déjà tester APISR grâce au code source disponible sur GitHub ou via Huggingface.

FlowTunes – Des heures de musiques IA de qualité pour rester concentré dans votre flow quotidien

Par : Korben
29 mai 2024 à 13:58

FlowTunes est une application de musique très sympa conçue spécifiquement pour booster votre concentration et votre productivité.

Le service propose plus de 3000 morceaux qui ont été générés en collaboration via Suno AI, ce qui garanti plus de 100 heures de musique en continu, toujours renouvelée. Suffit d’appuyer sur lecture, et vous voilà bercé par de la bonne Lo-Fi qui vous permettra de rester focus toute la journée.

L’auteur du site et de l’app iOS qui va avec a passé pas mal de temps pour rendre la musique plus harmonieuse et agréable à l’écoute, en relevant des défis comme la gestion des dégradations de qualité au fil du morceau. Et si un morceau ne vous plait pas, vous pouvez passer au suivant.

FlowTunes est gratuit et sans pub et propose également de personnaliser votre environnement sonore en y ajoutant des fonds sonores comme le chant des oiseaux ou une rivière qui coule… L’application iOS offre aussi une variété de chaînes musicales pour tous les goûts, telles que des beats de lo-fi, des symphonies classiques, des bandes son cinématographiques épiques, et bien plus encore.

Bref, ça vous plaira forcement si vous cherchez un peu de son détente histoire de vous concentrer sur votre travail ou votre code…etc.

Pour plus d’info, rendez-vous sur le site officiel ou téléchargez l’application sur l’App Store.

Source

Le son des images #IA

Par : Korben
28 mai 2024 à 13:33

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles « débruitent » des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il « suffit » d’aller sur le Github du projet et de suivre les instructions techniques.

Source

WebNN – L’IA s’invite dans votre navigateur avec DirectML

Par : Korben
28 mai 2024 à 12:49

Ça y est, les amis, l’API WebNN débarque enfin en preview pour les développeurs, et croyez-moi, ça va changer totalement la manière dont on fait tourner de l’IA dans nos navigateurs web !Grâce à cette techno, on va pouvoir profiter de la puissance de nos GPU et autres accélérateurs matériels directement depuis nos pages web, sans avoir à installer le moindre plugin ou logiciel supplémentaire.

Concrètement, WebNN est une API JavaScript qui va permettre aux applications web d’exécuter des tâches d’inférence de réseaux neuronaux de manière super efficace, en exploitant à fond les capacités des CPU, GPU et autres processeurs dédiés à l’IA (les fameux NPU et TPU). Fini les calculs qui rament, bonjour la fluidité et la réactivité, même pour les modèles les plus gourmands !

WebNN est complètement agnostique côté matériel et côté modèles. Quel que soit le hardware qu’on a sous le capot (Intel, AMD, NVIDIA, Qualcomm…) et le format des modèles (ONNX, TensorFlow…), cette API va nous permettre de tirer parti un maximum des ressources disponibles, tout ça de manière transparente, sans avoir à se prendre la tête avec des lignes de code spécifiques à chaque plateforme.

Cette API suit un modèle de programmation super simple en deux grandes étapes :

  • 1. La construction du modèle : on utilise l’API MLGraphBuilder pour définir notre réseau de neurones, ses opérations, ses entrées et ses sorties et une fois que c’est fait, on peut le compiler en un graphe exécutable.
  • 2. L’exécution du modèle : maintenant qu’on a notre super graphe optimisé, il ne reste plus qu’à lui envoyer nos données d’entrée, et il va nous fournir ses prédictions et classifications à toute vitesse !

Grâce à WebNN, les tâches d’inférence de machine learning sont accélérées par le matériel local, ce qui offre des performances améliorées et une faible latence, même sans connexion internet ou avec une connexion non fiable. De plus, les données restent sur la machine de l’utilisateur, ce qui préserve ainsi sa vie privée.

WebNN est conçu pour fonctionner avec DirectML sur Windows, lequel assure des performances optimales sur divers matériels, notamment les RTX GPUs de NVIDIA, les Intel Core Ultra avec Intel AI Boost, et les Copilot+ PC avec des NPU Qualcomm Hexagon. Ça ouvre la porte à des applications évoluées de génération d’IA, de reconnaissance d’images, de traitement du langage naturel, et bien d’autres cas d’utilisation tout à fait passionnants.

Si vous voulez vous lancer dès maintenant avec WebNN, je vous conseille fortement de visiter le dépôt WebNN Developer Preview sur GitHub. Vous y trouverez plein de démos et d’exemples de code pour vous familiariser avec l’API et ses fonctionnalités. Par contre, vous devrez télécharger Edge en version Canary et la dernière Insider de Windows 11 puis dans la barre d’URL, tapez edge://flags/ pour pouvoir ensuite activer WebNN.

Pour plus de détails, vous pouvez consulter le tutoriel officiel de Microsoft.

Un grand merci au super neurone NexusSeven pour les sources de cet article !

Source

GPT-4 défie les analystes financiers à leur propre jeu !

Par : Korben
25 mai 2024 à 10:45

Des chercheurs de l’Université de Chicago ont voulu tester les capacités de GPT-4 dans le domaine de l’analyse financière, et pas n’importe quelle analyse hein, ils sont allés directement au cœur du sujet à savoir la prédiction des bénéfices futurs des entreprises à partir de leurs états financiers !

Normalement, c’est un boulot d’expert réservé aux analystes financiers chevronnés, car il faut savoir décortiquer les bilans comptables, calculer des ratios clés, interpréter des tendances… Bref, c’est complexe et les machines n’étaient pas vraiment censées rivaliser avec le flair et l’expérience des pros.

Sauf que… Surprise ! Les résultats de l’étude sont bluffants.

GPT-4, sans aucune formation spécifique, s’est révélé meilleur que la moyenne des analystes humains pour prédire si les bénéfices allaient augmenter ou baisser ! L’IA a même fait jeu égal avec les modèles de machine learning spécialisés, entraînés pendant des heures sur des tonnes de données financières. Pas mal comme performance !

Pour y parvenir, les chercheurs ont préparé des données en anonymisant les états financiers comme ça, pas moyen pour GPT-4 de tricher en allant piocher dans sa mémoire. Il a donc dû se débrouiller comme un grand, en analysant uniquement les chiffres fournis… Il repère les tendances clés, calcule les bons ratios, interprète finement les résultats… bref, il effectue un vrai travail d’analyste !

Les chercheurs ont même montré qu’un réseau de neurones entraîné uniquement sur les commentaires fournis par GPT-4 arrivait à prédire les bénéfices presque aussi bien que l’IA elle-même.

Évidemment, GPT-4 a encore du mal avec les cas tordus, genre les petites boîtes qui font des pertes et les analystes humains gardent un avantage quand ils ont accès à des infos « soft » en plus des chiffres, donc rassurez-vous l’IA ne va pas piquer leur job demain (mais après-demain ?).

N’empêche, ces résultats ouvrent des perspectives plutôt excitantes ! Premièrement, ça pourrait démocratiser l’analyse financière en la rendant accessible au grand public. Deuxièmement, les hedge funds pourraient utiliser GPT-4 pour détecter des opportunités d’investissement.

Les chercheurs ont d’ailleurs testé une stratégie de trading basée sur les prédictions de l’IA, et ça marche plutôt bien ! L’étude montre que la stratégie « long short » basée sur les prédictions de GPT-4 génère des rendements supérieurs au marché, avec des ratios de Sharpe et des alphas significatifs. L’IA semble particulièrement douée pour dénicher de la valeur dans les petites capitalisations, là où les analystes humains et même les réseaux de neurones traditionnels ont plus de mal.

Mais attention, il faut rester prudent. Une IA qui joue en bourse, ça peut être risqué et il va falloir plus de garde-fous. Et puis n’oublions pas que ça reste une étude expérimentale et pas la réalité du terrain.

Mais je trouvais ça assez cool pour vous en parler.

Source

Unitree G1 – Le robot humanoïde à tout faire pour 16 000$

Par : Korben
14 mai 2024 à 10:37

Unitree, le fabricant chinois de robots bien connu (sauf par moi visiblement) pour ses quadrupèdes comme le Go2 et le B2, nous réserve une sacrée surprise avec son nouveau robot humanoïde baptisé G1. Et apparemment, ce n’est pas un gadget de geek.

Avec un prix de départ à 16 000 $, le G1 est une « affaire intéressante » comparé à d’autres robots humanoïdes comme l’Atlas de Boston Dynamics (qui coûte bien plus cher). Ce qui frappe d’emblée quand on regarde la vidéo, c’est la flexibilité hallucinante de ce robot. Grâce à ses 23 degrés de liberté dans les articulations, il peut bouger dans tous les sens, bien au-delà des capacités humaines. C’est un peu flippant ^^. Il peut même se plier pour se ranger facilement dans un coin.

Mais ce n’est pas qu’un contorsionniste en manque de reconnaissance. C’est aussi un sacré costaud avec ses 35kg (ou 47 kg… les infos divergent…) et sa vitesse de déplacement de 2 m/s. Ses moteurs délivrent jusqu’à 120 Nm de couple, de quoi soulever des charges d’environ 3 kg avec ses petits bras. Et avec sa batterie de 9000 mAh, il peut tenir environ 2 heures sur une seule charge (sur le papier). Bref, de quoi l’utiliser pour divers travaux sans craindre qu’il tombe à plat trop vite.

Côté look, Unitree a joué la carte du robot futuriste avec son casque aux allures de Daft Punk et son visage illuminé qui cache des capteurs 3D LiDAR et une caméra de profondeur. Mais ce sont surtout ses mains robotiques à trois doigts qui impressionnent le plus. Elles lui permettent d’attraper et de manipuler des objets avec une précision et une dextérité bluffantes.

Ce robot apprend aussi en permanence grâce à des techniques d’imitation et d’apprentissage par renforcement. Il peut simuler les mouvements humains et acquérir de nouvelles compétences au fur et à mesure. Son cerveau embarque 8 cœurs haute performance pour un traitement ultra-rapide des informations. Et avec le WiFi 6 et le Bluetooth 5.2, il est hyper connecté ! Pour ceux qui cherchent à le développer davantage, le modèle G1 EDU inclut même en option le module de calcul haute performance NVIDIA Jetson Orin.

Alors Terminator en devenir ou pas ? Bien qu’il puisse encaisser des coups, il reste très docile. Enfin, pour l’instant… Car Unitree prévoit de l’entraîner dans des environnements simulés pour muscler encore plus son IA.

Bref, ce G1 de Unitree apporte un peu de fraicheur, surtout qu’à ce prix, ça commence à devenir accessible pour le commun des friqués. Certaines de ses fonctionnalités impressionnantes sont encore en développement, mais avec le rythme auquel avancent les technologies robotiques, ce n’est qu’une question de temps avant qu’il ne devienne encore plus polyvalent et sache se rendre indispensable.

Bref, pour en savoir plus, rendez vous sur le site Unitree.

Perso, je me porte volontaire pour le tester.

Source

AlphaFold 3 – Un sacré bond en avant pour la modélisation des molécules du vivant

Par : Korben
9 mai 2024 à 05:34

Vous vous souvenez d’AlphaFold 2, ce modèle d’IA assez dingue de Google DeepMind qui avait fait des avancées majeures dans la prédiction des structures de protéines ? Eh bien, la version 3 vient de débarquer et elle repousse encore un peu plus les limites !

AlphaFold 3, c’est comme si on passait d’un film noir et blanc du genre la Vache et Le Prisonnier à un film en 3D style Avatar, car non seulement il prédit avec une précision impressionnante la structure 3D des protéines, mais il est également capable de modéliser leurs interactions avec tout un tas d’autres molécules : l’ADN, l’ARN, les petites molécules organiques comme les médicaments, et même les modifications chimiques.

Concrètement, ça veut dire qu’on va pouvoir mieux comprendre comment toutes ces molécules qui nous composent s’assemblent et fonctionnent ensemble, comme les rouages de l’horloge cosmique de la viiiie. Un sacré bond en avant pour décrypter les processus biologiques fondamentaux et leurs dysfonctionnements à l’origine des maladies.

Son secret, évidemment, c’est une architecture de réseau de neurones encore plus puissante et entraînée sur une montagne de données moléculaires. Le cœur du système repose sur un module Evoformer amélioré, couplé à une nouvelle approche basée sur des réseaux de diffusion qui partent d’un nuage d’atomes pour converger vers la structure moléculaire la plus probable.

Et les résultats sont vraiment impressionnants puisque sur les jeux de données de référence, AlphaFold 3 bat des records avec des améliorations significatives par rapport aux méthodes existantes. Pour certaines catégories d’interactions, comme celles avec les médicaments, il augmente même nettement la précision des prédictions. Et tout ça sans même avoir besoin de données structurales en entrée.

Mais le plus cool, c’est que c’est open source (Edit : Apparemment, ça ne l’est plus malheureusement – Merci à Enthuo pour la correction) et accessible gratuitement à la communauté scientifique via le nouveau serveur AlphaFold. Cet outil permet à n’importe quel chercheur de générer des prédictions pour ses protéines d’intérêt en quelques clics, là où il fallait avant un travail titanesque et des moyens conséquents. Bref, de quoi démocratiser la biologie structurale et accélérer les découvertes !

Évidemment, avec une telle puissance vient aussi de grandes responsabilités, alors les gros cerveaux derrière DeepMind ont longuement planché avec de nombreux experts et organismes pour définir un cadre éthique et limiter les risques de mésusage comme on dit. Parce qu’autant un AlphaFold entre de bonnes mains, ça peut faire avancer la science et la médecine de façon spectaculaire, autant on n’a pas envie de voir débarquer des virus ou des prions tueurs conçus par des apprentis sorciers.

Mais j’ai hâte de voir ce que la communauté scientifique va réussir à faire avec cet outil génial. Peut-être de nouvelles enzymes pour des applications industrielles, des matériaux bio-inspirés aux propriétés uniques, ou des protéines thérapeutiques plus efficaces ? En tout cas une chose est sûre, la révolution biotech ne fait que commencer et nul doute qu’AlphaFold 3 en sera l’un des acteurs clés !

Source

Fabric – Un framework open source pour travailler main dans la main avec l’IA

Par : Korben
8 mai 2024 à 07:00

Depuis que l’IA a débarqué dans nos vies, il est maintenant possible de lui déléguer une grande partie de nos tâches fastidieuses et chronophages, ce qui nous permet de nous concentrer sur l’essentiel. Des outils comme ChatGPT ont évidemment démocratisé l’accès à cette technologie, mais ses capacités vont bien au-delà d’un simple agent conversationnel.

En effet, l’IA peut devenir un véritable assistant personnel pour booster à la fois notre créativité et notre productivité. Perso, je ne peux plus m’en passer, et que vous soyez développeur, designer, écrivain ou entrepreneur, il existe de nombreuses façons de l’intégrer dans vos workflows. Génération de code, création de visuels, rédaction et correction de texte, analyse de données, relecture de contrats, automatisation de tâches… La liste est infinie pour peu que vous ayez un peu d’imagination.

C’est là qu’entre en scène le projet open-source Fabric qui permet justement de créer des workflows basés sur l’IA totalement sur-mesure en combinant différents modèles et différentes APIs. Comme ça vous pourrez concevoir vos propres assistants adaptés à vos propres besoins.

Concrètement, Fabric fonctionne comme un framework avec différents composants réutilisables :

  • Des Patterns qui sont des templates de prompts répondant à un besoin précis (ex : résumer un article, extraire les idées clés d’une vidéo, etc).
  • Des Stitches qui permettent d’enchaîner plusieurs Patterns pour créer des workflows avancés.
  • Un serveur central appelé Mill qui héberge et sert les Patterns.
  • Des apps clientes appelées Looms qui invoquent les Patterns via des APIs.

Plutôt que d’utiliser des services IA fermés, Fabric vous donne le contrôle total sur vos workflows. Comme ça, vous pouvez héberger vous-même les différents composants et garder vos données en local. Le tout étant bien sûr basé sur des standards ouverts et interopérables.

L’idée pour les gens derrière Fabric, c’est de rendre l’intégration de l’IA aussi simple que l’utilisation de commandes Unix. Par exemple, pour résumer le contenu d’une page web avec l’IA, il vous suffit de chaîner les deux commandes suivantes :

curl https://example.com | fabric --pattern summarize

Vous pouvez même créer des aliases pour vos patterns les plus utilisés. Par exemple pour analyser un article :

alias analyze="fabric --pattern analyze" cat article.txt | analyze

Bien sûr, tout ceci nécessite un peu de pratique et de changements dans vos habitudes de travail mais une fois les bons réflexes pris, le gain de temps sera considérable.

Certains craignent que l’IA nous mette tous au chomage mais je pense au contraire qu’elle va surtout nous aider à torcher rapidement les tâches ingrates pour nous permettre d’être plus créatifs et de bosser sur les sujets de fond avec plus de valeur ajoutée.

Si ça vous dit d’essayer Fabric, la doc est ici.

Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)

Par : Korben
7 mai 2024 à 07:00

Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?

C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.

Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.

Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.

Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.

Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :

Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.

Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.

Vous devrez donc avoir Python 3.11, puis installez poetry :

brew install poetry

Ensuite, clonez le dépôt git et aller dans le dossier :

git clone https://github.com/Skyvern-AI/skyvern.git

cd skyvern

Puis lancez le script d’install :

./setup.sh

Une fois que c’est fini, démarrez le serveur :

./run_skyvern.sh

Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :

./run_ui.sh

Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.

En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :

curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
    "url": "https://www.geico.com",
    "webhook_callback_url": "",
    "navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
    "data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
    "navigation_payload": "{Vos données ici}",
    "proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks

Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.

Bref, pour en savoir plus, c’est sur le Github. Et sur leur site officiel.

Discutez avec les interviews de Steve Jobs !

Par : Korben
7 mai 2024 à 05:00

Fans de Steve Jobs, réjouissez-vous !

Grâce à la magie de l’intelligence artificielle, vous allez pouvoir discuter avec votre gourou préféré. Enfin, quand je dis « discuter », c’est un bien grand mot. Disons plutôt que vous allez pouvoir poser des questions à un modèle de langage entraîné sur une petite quantité d’interviews et discours de Steve Jobs himself.

Pour cela, le créateur de ce chatbot a utilisé un service nommé Jelli.io qui permet justement de chatter avec des vidéos et le résultat est plutôt cool, même si le chatbot n’incarne pas directement Steve Jobs (pour des questions éthiques j’imagine et pour n’énerver personne…)

Bref, de quoi vous inspirer et vous motiver sans forcement mater des heures et des heures d’interviews.

Ollama 0.133 – Enfin une gestion en parallèle des LLMs

Par : Korben
6 mai 2024 à 10:06

Vous avez vu la dernière version d’Ollama ? Cette version 0.133 a l’air plutôt pas mal. Bon, je sais, je sais, ça faisait un bail que je n’avais pas parlé des mises à jour de cet outil génial pour faire tourner des modèles d’IA en local, mais là, impossible de passer à côté !

Déjà, on a le droit à des fonctionnalités expérimentales de parallélisme (je sais pas si c’est comme ça qu’on dit en français…) qui vont vous permettre d’optimiser grave vos applis d’IA. Il y a donc 2 nouvelles variables d’environnement qui débarquent : OLLAMA_NUM_PARALLEL et OLLAMA_MAX_LOADED_MODELS. Avec ça, vous allez pouvoir gérer plusieurs modèles et requêtes en même temps, comme des pros ! 😎

Par exemple, si vous avez un modèle pour compléter votre code avec une IA de 6 milliards de paramètres comme Llama 3, et en même temps vous demandez à Phi 3 Mini et ses 3,8 milliards de paramètres comment architecturer votre projet et bien maintenant, c’est possible ! Comme ça, plus besoin d’attendre que l’un ait fini pour lancer l’autre puisque tout ça va se lancer en parallèle.

Alors bien sûr, c’est encore expérimental car il n’y a pas encore de priorité, et on est limité par la mémoire dispo sur notre machine. D’ailleurs, il vaut mieux avoir 16 Go de RAM et un CPU 4 cœurs pour que ça fonctionne correctement.

Il y a aussi plein de nouveaux modèles d’IA compatibles avec Ollama maintenant. Des gros calibres comme Llama 3, le meilleur modèle open-source à ce jour, mais aussi des plus légers et spécialisés comme Phi 3 Mini, Moondream pour la vision par ordinateur sur des appareils à la marge, ou encore Dolphin Llama 3 qui répond sans censure. Et le premier modèle Qwen (c’est chinois) de plus de 100 milliards de paramètres, Qwen 110B, est également de la partie. Ça en fait des compagnons pour nous assister dans nos projets !

Ensuite, imaginons que vous vouliez tester le parallélisme. Vous devez simplement lancer votre serveur Ollama avec les fameuses variables d’environnement.

Voici comment procéder :

Définir les variables sur Mac :

  • Utilisez launchctl pour définir chaque variable. Par exemple, pour permettre à Ollama de gérer trois requêtes simultanément, tapez dans le terminal :
    launchctl setenv OLLAMA_NUM_PARALLEL 3
  • Pour définir le nombre maximal de modèles chargés simultanément à deux, utilisez :
    launchctl setenv OLLAMA_MAX_LOADED_MODELS 2
  • Après avoir défini les variables, redémarrez l’application Ollama.

Configurer les variables sur Linux :

    • Éditez le service systemd d’Ollama avec systemctl edit ollama.service, ce qui ouvrira un éditeur de texte.
    • Ajoutez les lignes suivantes sous la section [Service] :
      [Service] Environment="OLLAMA_NUM_PARALLEL=3" Environment="OLLAMA_MAX_LOADED_MODELS=2"
    • Sauvegardez et quittez l’éditeur. Rechargez systemd et redémarrez Ollama avec :
      systemctl daemon-reload systemctl restart ollama

    Paramétrer les variables sur Windows :

      • Quittez l’application Ollama via la barre des tâches.
      • Accédez aux variables d’environnement système via le panneau de configuration et créez ou modifiez les variables pour votre compte utilisateur :
        • Pour OLLAMA_NUM_PARALLEL, ajoutez ou modifiez la variable à 3.
        • Pour OLLAMA_MAX_LOADED_MODELS, ajustez la variable à 2.
      • Appliquez les changements et redémarrez Ollama à partir d’une nouvelle fenêtre de terminal.

      Là, ça veut dire que vous pourrez envoyer 3 requêtes en parallèle sur le même modèle, et charger jusqu’à 2 modèles différents si votre RAM de 16 Go minimum le permet.

      Bon, et une fois que c’est lancé, vous pourrez envoyer des requêtes à tour de bras. Un coup à Llama 3 pour qu’il vous aide à générer un résumé de texte hyper optimisé, un autre à Phi 3 Mini pour résumer un article scientifique, tout ça pendant que Moondream analyse une image pour de la détection d’objets.

      Allez, je vous laisse tranquille, faut que j’aille optimiser mes scripts maintenant.

      Ollama 0.133 est dispo ici.

      Source

      ❌
      ❌