Le son des images #IA

28 mai 2024 à 13:33

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles « débruitent » des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il « suffit » d’aller sur le Github du projet et de suivre les instructions techniques.

Source

💾

SocialScreenshots – Mettez en valeur vos captures écran sans effort

Korben

26 mai 2024 à 15:03

Vous rêvez de créer des visuels de fou pour vos réseaux sociaux ?

Ne cherchez plus, SocialScreenshots est là ! Développé par Gabriel, un jeune développeur toulousain de 29 ans, cet outil ingénieux vous permet de capturer, recadrer et améliorer vos captures d’écran en quelques clics, directement depuis votre navigateur.

Inspiré par l’interface de Screen Studio, Gab a développé son site uniquement avec ReactJS et canvas, en créant lui-même tout l’habillage et le résultat est très sympa !

Grâce à ce site, vous pouvez créer un screenshot directement depuis un site web, puis le recadrer automatiquement au format voulu (Pour X, Facebook, Instagram, Linkedin et les résolutions d’écran classiques), et l’améliorer grâce à l’éditeur afin d’obtenir des rendus dignes d’un graphiste en herbe en ajoutant une ombre, en arrondissant les coins, et en choisissant un joli fond ou un dégradé pour l’arrière-plan.

C’est gratuit, y’a pas de filigrane ni de limite de temps, vous n’avez rien à installer et pas même besoin de créer un compte. Et toutes les manipulations se font localement dans votre navigateur, pour un maximum de simplicité et de confidentialité.

À découvrir ici

Microsoft releases Pix2Gif AI tool to turn still images into GIFs

TheWindowsClub News

Guru@TWCN

18 mars 2024 à 08:13

image to GIF Microsoft is focusing more on AI tools that can do various things. Copilot is its most ambitious AI tool based on ChatGPT. Now, the Microsoft research team has introduced a new AI tool Pix2Gif that can turn a still image into a GIF automatically. Pix2Gif AI tool turns still images into GIFs Microsoft, like other […]

The post Microsoft releases Pix2Gif AI tool to turn still images into GIFs appeared first on TheWindowsClub News.

Vue lecture