Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Comment Boston Dynamics compte construire un cerveau pour Atlas

Par : Korben
20 décembre 2025 à 07:38

Boston Dynamics que vous connaissez tous pour ses chiens robots tueurs de la mort, vient de sortir une vidéo de 40 minutes. Pas de saltos arrière ou de robots qui dansent mais plutôt une loooongue session où ça parle stratégie IA et vision à long terme. Et comme j'ai trouvé que c'était intéressant, je partage ça avec vous !

Zach Jacowski, le responsable d'Atlas (15 ans de boîte, il dirigeait Spot avant), discute donc avec Alberto Rodriguez, un ancien prof du MIT qui a lâché sa chaire pour rejoindre l'aventure et ce qu'ils racontent, c'est ni plus ni moins comment ils comptent construire un "cerveau robot" capable d'apprendre à faire n'importe quelle tâche. Je m'imagine déjà avec un robot korben , clone de ma modeste personne capable de faire tout le boulot domestique à ma place aussi bien que moi... Ce serait fou.

Leur objectif à Boston Dynamics, c'est donc de créer le premier robot humanoïde commercialement viable au monde et pour ça, ils ont choisi de commencer par l'industrie, notamment les usines du groupe Hyundai (qui possède Boston Dynamics).

Alors pourquoi ? Hé bien parce que même dans les usines les plus modernes et automatisées, y'a encore des dizaines de milliers de tâches qui sont faites à la main. C'est fou hein ? Automatiser ça c'est un cauchemar, car pour automatiser UNE seule tâche (genre visser une roue sur une voiture), il faudrait environ un an de développement et plus d'un million de dollars.

Ça demande des ingénieurs qui conçoivent une machine spécialisée, un embout sur mesure, un système d'alimentation des vis... Bref, multiplié par les dizaines de milliers de tâches différentes dans une usine, on serait encore en train de bosser sur cette automatisation dans 100 ans...

L'idée de Boston Dynamics, c'est donc de construire un robot polyvalent avec un cerveau généraliste. Comme ça au lieu de programmer chaque tâche à la main, on apprend au robot comment faire. Et tout comme le font les grands modèles de langage type ChatGPT, ils utilisent une approche en deux phases : le pre-training (où le robot accumule du "bon sens" physique) et le post-training (où on l'affine pour une tâche spécifique en une journée au lieu d'un an).

Mais le gros défi, c'est clairement les données. ChatGPT a été entraîné sur à peu près toute la connaissance humaine disponible sur Internet mais pour un robot qui doit apprendre à manipuler des objets physiques, y'a pas d'équivalent qui traîne quelque part.

Du coup, ils utilisent trois sources de data.

La première, c'est la téléopération. Des opérateurs portent un casque VR, voient à travers les yeux du robot et le contrôlent avec leur corps. Après quelques semaines d'entraînement, ils deviennent alors capables de faire faire à peu près n'importe quoi au robot. C'est la donnée la plus précieuse, car il n'y a aucun écart entre ce qui est démontré et ce que le robot peut reproduire. Par contre, ça ne se scale pas des masses.

La deuxième source, c'est l'apprentissage par renforcement en simulation. On laisse le robot explorer par lui-même, essayer, échouer, optimiser ses comportements. L'avantage c'est qu'on peut le faire tourner sur des milliers de GPU en parallèle et générer des données à une échelle impossible en conditions réelles. Et contrairement à la téléopération, le robot peut apprendre des mouvements ultra-rapides et précis qu'un humain aurait du mal à démontrer, du genre faire une roue ou insérer une pièce avec une précision millimétrique.

La troisième source, c'est le pari le plus ambitieux, je trouve. Il s'agit d'apprendre directement en observant des humains.

Alors est-ce qu'on peut entraîner un robot à réparer un vélo en lui montrant des vidéos YouTube de gens qui réparent des vélos ? Pas encore... pour l'instant c'est plus de la recherche que de la production, mais l'idée c'est d'équiper des humains de capteurs (caméras sur la tête, gants tactiles) et de leur faire faire leur boulot normalement pendant que le système apprend.

Et ils ne cherchent pas à tout faire avec un seul réseau neuronal de bout en bout. Ils gardent une séparation entre le "système 1" (les réflexes rapides, l'équilibre, la coordination motrice, un peu comme notre cervelet) et le "système 2" (la réflexion, la compréhension de la scène, la prise de décision). Le modèle de comportement génère des commandes pour les mains, les pieds et le torse, et un contrôleur bas niveau s'occupe de réaliser tout ça physiquement sur le robot.

C'est bien pensé je trouve. Et dans tout ce bordel ambiant autour de la robotique actuelle, eux semblent avoir trouver leur voie. Ils veulent transformer l'industrie, les usines...etc. Leur plan est clair et ils savent exactement ce qu'ils doivent réussir avant de passer à la suite (livraison à domicile, robots domestiques...).

Voilà, je pense que ça peut vous intéresser, même si c'est full english...

J'ai testé Atlas, le navigateur IA ChatGPT d'OpenAI

Par : Korben
22 octobre 2025 à 08:32

J’sais pas si vous avez vu ça mais OpenAI vient de sortir son propre navigateur web avec ChatGPT intégré en permanence sur le côté. Baptisé Atlas, c’est tout pareil que Comet de Perplexity quoi… L’idée c’est donc d’avoir une IA qui comprend tout ce que vous faites sur le web et qui peut agir à votre place. Genre, vous lui demandez de commander vos courses ou de remplir un formulaire, et elle le fait.

Sur le papier, c’est génial car c’est un assistant intelligent qui ne quitte jamais l’écran, qui voit tous vos onglets ouverts, qui se souvient de ce que vous avez cherché la semaine dernière, et qui peut cliquer dans votre navigateur pour faire des trucs à votre place.

Atlas est basé sur Chromium et la première fois que vous l’ouvrez, il vous propose d’importer vos marque-pages, mots de passe et historique depuis votre navigateur actuel (Safari / Chrome…. mais pas de Firefox). Ça prend 30 secondes et ensuite, vous vous connectez à votre compte ChatGPT, et hop, vous avez ChatGPT qui vous suit partout.

L’interface est minimaliste, y’a pas rien de révolutionnaire visuellement à part cette sidebar ChatGPT qui est le truc central d’Atlas car elle est toujours là, sur le côté droit de votre écran. Vous pouvez donc lui poser des questions en écrivant un truc ou en vocal et l’IA comprendra automatiquement le contexte de la page que vous êtes en train de regarder.

Comme ça si vous êtes sur un article technique, vous pouvez lui demander de le résumer ou de vous faire un tuto. Si vous voulez comparer des produits sur Amazon ou ailleurs, vous lui demandez lequel choisir. Pas besoin de copier-coller, pas besoin de faire des screenshots, ChatGPT voit ce que vous voyez.

J’ai testé ça avec plein de scénarios différents de la recherche d’infos techniques, à la comparaison de prix, en passant par la lecture d’articles longs et c’est assez pratique.

La fonctionnalité “browser memories”, c’est le deuxième gros truc d’Atlas. En gros, ça permet à ChatGPT de se souvenir de tout ce que vous faites sur le web. Les sites que vous visitez, les recherches que vous faites, les produits que vous regardez et il utilise ensuite ça pour personnaliser ses réponses et vous faire des suggestions. Par exemple, si vous avez passé une semaine à regarder des ordinateurs portables, il peut vous dire “Tiens gros, y’a une promo sur le modèle que t’as vu hier”. Ou si vous cherchez un resto, il peut par exemple se souvenir que vous n’aimez pas les fruits de mer.

Bien sûr, vous pouvez les consulter dans les paramètres et les archiver une par une si elles deviennent inutiles… Après c’est toujours un peu flippant de voir tout ce que cette IA (et la NSA par ricochet) sait sur nous.

OpenAI promet que ces données ne sont pas utilisées pour entraîner leurs modèles par défaut et vous pouvez activer le mode incognito pour que ChatGPT arrête de tout logger mais bon, leurs promesses n’engagent que ceux qui y croient. Il y a aussi une option pour bloquer la visibilité de ChatGPT sur certains sites spécifiques. Par exemple, vous pouvez lui dire de ne rien regarder quand vous êtes sur votre banque en ligne, sur un site médical ou sur votre site pour adulte préféré ^^. Bref, c’est bien pensé niveau contrôle.

Y’a aussi le mode Agent qui est LA fonctionnalité star qu’OpenAI a mise en avant. C’est là qu’Atlas devient un “super-assistant” qui peut agir à votre place. Vous lui donnez une tâche, et il se met à cliquer dans votre navigateur pour la faire du genre réserver une table au resto, collecter vos factures, remplir un formulaire administratif, créer une liste de courses à partir d’une recette…etc tout ça sans avoir à toucher à la souris.

Maintenant, je vous le dis, leur promesse c’est de la science-fiction car dans la vraie vie, c’est plus compliqué. J’ai testé le mode Agent sur plusieurs tâches, et les résultats sont très inégaux. Les trucs simples, ça passe mais dès que ça devient un peu plus complexe, ça coince. L’Agent clique lentement, hésite, revient en arrière, se trompe de bouton. C’est pas fluide du tout et l’agent se perd très vite complètement.

Notez que ce mode Agent est pour le moment réservé aux abonnés Plus, Pro et Business donc si vous êtes en gratuit, vous n’y aurez pas accès. Après, OpenAI ne s’en cache pas et a expliqué que ce mode agent, c’était surtout une beta publique et donc qu’il ne fallait pas s’attendre à des miracles.

Puis au niveau sécu, l’agent peut aussi se faire manipuler par des instructions malveillantes cachées dans une page web ou un email, du genre, vous visitez un site piégé, l’agent lit une instruction invisible qui lui dit “vire 500 euros sur ce compte”, et il pourrait le faire comme un couillon. OpenAI a bien sûr mis des garde-fous, mais ils disent eux-mêmes que ça arrêtera pas toutes les attaques.

Donc à vous de voir si l’idée de laisser une IA cliquer partout dans votre navigateur pendant que vous êtes connecté à votre banque, votre boite mail ou vos réseaux sociaux vous convient.

La fonction “in-line writing”, c’est un truc que j’ai beaucoup aimé par contre. Vous êtes en train d’écrire un email, un message, un doc Google, peu importe. Vous sélectionnez votre texte, vous faites clic droit, et ChatGPT vous propose de le réécrire, de le raccourcir, de corriger les fautes, de changer le ton. Et ça fonctionne partout, dans tous les champs de texte web comme ça plus besoin de copier-coller vers ChatGPT et revenir. C’est assez fluide. D’ailleurs si vous voulez faire la même chose mais en local et gratos, y’a NativeMind que je vous recommande.

Voilà, vous pouvez télécharger Atlas sur chatgpt.com/atlas histoire de tester. Après le jour où l’agent sera vraiment fiable et rapide, ça va tout changer je pense. On va pouvoir lui déléguer plein de tâches chiantes et on aura plus jamais besoin de remplir des formulaires, de comparer 50 produits à la con sur Amazon, ou de chercher des restos pendant des heures.

Source

Australia’s Atlassian: Measuring Software Developer Productivity Is Missing the Point

Par : Ben Abbott
2 août 2024 à 19:46
Businesses worldwide are trying to squeeze more productivity out of software developers. Atlassian finds this strategy counterproductive, suggesting companies should instead focus on maximising “developer joy.”
❌
❌