Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Voicebox - Clonez des voix en local sans passer par le cloud

Par : Korben
20 mars 2026 à 11:22

Si vous cherchez un moyen de faire du clonage vocal en local sans filer vos fichiers audio à un service cloud, Voicebox devrait vous plaire. C'est un studio de synthèse vocale open source et gratuit qui tourne entièrement sur votre machine, et qui n'a rien à envier à ElevenLabs.

Concrètement, vous téléchargez l'app (dispo macOS, Windows et Docker), vous importez un extrait audio d'à peine 3 secondes minimum et hop, la voix est clonée. Pas besoin de compte, pas de limite d'utilisation, pas de "crédits" qui fondent comme neige au soleil !

Voicebox embarque 5 moteurs TTS différents plutôt que de tout miser sur un seul. Par exemple, Qwen3-TTS gère 10 langues avec des instructions en langage naturel du genre "parle lentement" ou "chuchote". Chatterbox Multilingual couvre 23 langues, de l'arabe au swahili en passant par le finnois.

LuxTTS lui est ultra-léger... genre 1 Go de VRAM et 150x plus rapide que le temps réel même sur CPU (anglais uniquement par contre) ! Et avec Chatterbox Turbo, vous pouvez injecter des tags comme [laugh], [sigh] ou [gasp] directement dans le texte pour que la voix rigole ou soupire à la demande (anglais aussi). Franchement, c'est pas mal du tout.

Tenez voici ce que ça donne avec ma voix (J'ai utilisé Qwen3)

Et pour ceux qui aiment bidouiller, y'a une API REST complète sur localhost:17493. Du coup, on peut intégrer la synthèse vocale dans ses propres scripts, automatiser la génération de podcasts ou monter un pipeline perso avec ffmpeg. Parce que bon, avoir un moteur vocal sans pouvoir l'utiliser dans ses projets, ça n'a pas d'intérêt.

Côté post-production, 8 effets audio sont dispos (pitch shift, reverb, delay, chorus, compression...) propulsés par pedalboard, la lib audio de Spotify. On peut aussi sauvegarder des presets et les appliquer par profil vocal. Y'a même un éditeur multi-pistes pour composer des conversations ou des narrations avec plusieurs voix sur une timeline.

Attention par contre, le projet est assez récent (c'est sorti en janvier) et côté Linux, y'a pas encore de binaires pré-compilés, faudra donc compiler from source mais je sais que vous adorez ça, les barbus ^^. Et le problème avec 5 moteurs différents, c'est que chacun a ses propres dépendances, donc ça prend pas mal en espace disque.

Sous le capot, c'est codé en Rust, ça utilise Tauri (pas Electron) car personne ne veut un genre de Chromium de 500 Mo pour lancer un simple outil audio. Sur Mac Apple Silicon, l'inférence passe par MLX et le Neural Engine et sur Windows et Linux, c'est CUDA, ROCm pour AMD, DirectML et même Intel Arc. D'ailleurs si vous voulez exploiter l'IA locale sur Mac pour d'autres usages, les Foundation Models d'Apple s'y prêtent aussi.

Si vous avez déjà joué avec MLX-Audio pour faire de la synthèse vocale en ligne de commande, Voicebox c'est finalement la version "app complète" avec interface graphique, gestion de profils vocaux et file d'attente de génération. C'est un peu le Ollama de la voix.

Voilà, si le clonage vocal en local vous branche, c'est sous licence MIT, c'est gratuit et ça tourne nickel ! Ah et si vous êtes un escroc qui cherche à cloner des voix pour arnaquer des gens, sachez que je viens de vous jeter un mauvais sort à travers la lecture de cet article. Attendez-vous à avoir des cheveux qui vous poussent sur la langue et des verrues dans les yeux, d'ici quelques semaines.

Merci à Lorenper pour la découverte.

MLX-Audio - Faites parler votre Mac sans le cloud

Par : Korben
11 mars 2026 à 13:41

Faire de la synthèse vocale , de la transcription et du voice cloning en local sur son Mac, sans envoyer le moindre octet dans le cloud... hey bien c'est possible mes petits foufous et en plus comme je sais que vous avez des oursins dans les poches, hé bien bonne nouvelle : C'est gratuit !

MLX-Audio , c'est donc une bibliothèque Python qui exploite le framework MLX d'Apple pour faire tourner des modèles audio directement sur les puces M1, M2, M3, M4 et maintenant M5. Cette liste est trop longue, la prochaine fois, j'écrirais M* ou M1-5 ^^. Avec cette lib, du coup, tout se fait en local sur votre machine. Si je devais oser une comparaison un peu casse gueule, je dirais que c'est un peu le Ollama de l'audio.

Côté text-to-speech, y'a surtout du choix. Une dizaine de modèles sont disponibles, dont Kokoro pour du multilingue (français, anglais, japonais, chinois, espagnol...), Chatterbox qui gère 23 langues, ou encore Dia pour les dialogues. Et voici comment ensuite avec une commande dans le terminal, on peut faire parler la machine :

mlx_audio.tts.generate --model mlx-community/Kokoro-82M-bf16 --text "Salut les copains" --lang_code f --play

Le truc sympa, c'est que ça ne s'arrête pas à la synthèse vocale. Côté transcription, on retrouve Whisper (le modèle d'OpenAI qui gère 99 langues), Parakeet de NVIDIA pour les langues européennes, et même VibeVoice-ASR de Microsoft qui fait de la diarization (identifier qui parle dans une conversation).

Pour transcrire un fichier audio, c'est donc tout aussi simple :

python -m mlx_audio.stt.generate --model mlx-community/whisper-large-v3-turbo-asr-fp16 --audio meeting.wav --verbose

Y'a aussi le voice cloning avec CSM, où vous filez un fichier audio de référence et le modèle reproduit la voix. Perso, ça fait un peu flipper mais qui est carrément bluffant ! Sauf si vous avez une voix super particulière (trop de clope hein ^^), au final le résultat est assez bon.

Attention, tout ça a besoin de mémoire ! Heureusement, la bibliothèque gère la quantization (de 3 à 8 bits), du coup les modèles sont compressés pour tenir dans la mémoire unifiée des puces Apple Silicon. Le plus léger, Kokoro, fait 82M de paramètres et le plus costaud, Ming Omni, monte à 16.8 milliards de paramètres (mais en mixture-of-experts, donc seulement 3B activés à la fois). Pour ce dernier, faut donc un Mac avec pas mal de RAM.

D'ailleurs, si vous êtes développeur, la bibliothèque expose également une API REST compatible OpenAI. Ça veut dire que vos apps qui causent déjà avec l'API d'OpenAI peuvent basculer sur du local sans changer une ligne de code... enfin presque. Car faut quand même pointer vers localhost au lieu des serveurs d'OpenAI, mais c'est à peu près tout. Y'a même un package Swift pour intégrer ça dans une app iOS ou macOS native.

Voilà, pour ceux qui préfèrent une interface graphique, un mode web avec visualisation 3D de l'audio est même intégré. C'est super joli !

Ce projet est sous licence MIT, et le mainteneur, Prince Canuma, est un ancien ingénieur ML chez Arcee AI, donc pas un random qui a forké un truc un dimanche ^^.

Voilà, si vous avez un Mac et que l'audio IA en local vous branche, c'est open source, c'est gratuit et ça marche carrément bien !

SARCASM - Ce robot résout un Rubik's Cube en vous insultant

Par : Korben
5 novembre 2025 à 10:04

En mai de cette année, des étudiants de Purdue ont battu le record du monde du robot résolveur de Rubik’s Cube grâce à leur machine, Purdubik’s Cube qui a torché un cube en 0.103 secondes !! Plus rapide que moi mais surtout plus rapide qu’un clin d’œil !

Et pendant ce temps, un autre passionné de Rubik’s Cube, Vindar , bossait tranquillement sur SARCASM , un autre robot qui résout aussi des Rubik’s Cubes, sauf que lui, il prend son temps ! Et surtout, il vous clashe pendant qu’il le fait. Il a une voix, des animations, un système d’humeur, et une personnalité de collègue insupportable ! Il est lent, il est sarcastique, il est inutilement compliqué, et c’est exactement pour ça qu’il est génial, vous allez voir !

SARCASM, ça veut dire Slightly Annoying Rubik’s Cube Automatic Solving Machine . Déjà rien que le nom c’est tout un programme. Et ce robot n’a qu’un seul objectif : résoudre des cubes en étant légèrement casse couilles. Pas hyper rapide, pas hyper efficace, juste chiant ce qu’il faut.

Le projet a démarré pendant COVID, quand tout le monde était enfermé chez soi à chercher des trucs à faire. Certains comme moi ont fait de la brioche, d’autres ont regardé Netflix en boucle et Vindar, lui, s’est dit qu’il allait créer un robot qui insulte les gens. Et nous voilà, 5 ans avec un robot qui vanne. Oui, Vindar est du genre persévérant !

Techniquement, SARCASM est un concentré de tech aussi cool qu’absurde. Le cerveau, c’est un Teensy 4.1, un microcontrôleur ARM Cortex-M7 qui tourne à 600 MHz. Pour la vision, il a utilisé une ESP32-CAM qui capture l’état du cubeet un écran ILI9341 pour afficher une tête avec des animations lip-sync. Des moteurs pas à pas (je crois que c’est comme ça qu’on dit ^^) et des servos pour manipuler le cube, des capteurs de position, un chouette éclairage RGBW, deux batteries 18650 Li-ion avec un port de charge USB-C et il a calé tout ça dans un boîtier imprimé en 3D avec un PCB custom.

Mais le logiciel les amis, c’est là que ça devient vraiment foufou car y’a du text-to-speech avec espeak-ng, des graphiques 2D et 3D custom, des animations qui bougent en temps réel et même comme je vous le disais, un système de dialogues basé sur l’humeur du robot, avec randomisation pour que chaque interaction soit différente.

Evidemment, SARCASM dispose aussi d’un algorithme de résolution du cube avec du décodage JPEG en temps réel pour la reconnaissance des couleurs, du multithreading avec gestion d’interruptions, bref, tout ce qu’il faut pour résoudre des Rubik’s Cube et créer une personnalité à cette machine.

Le robot détecte même quand vous vous foirez en manipulant le cube, juste pour pouvoir vous clasher dessus. Chaque détail technique sert un seul objectif qui est de rendre cette machine “vivante”.

Pour faire tenir tout ça, Vindar a dû modifier le noyau du Teensy. Parce que oui, même avec 600 MHz et un ARM Cortex-M7, il fallait optimiser pour que tout rentre dans la RAM et il a mis tout son code en open-source, sous licence GPL-3.0. Après, comme le précise le dev, son code est incomplet et bordélique mais bon, ça fonctionne…

Et surtout, le robot est autonome. Vous posez un cube standard dessus, il le scanne, il calcule, il résout, tout ça offline sans API ou service de cloud.

Le projet a été présenté en détails sur le forum PJRC , la communauté autour des cartes Teensy et les retours sont unanimement positifs ! Puis au moment, celui-là on s’en souviendra !

Merci à Lorenper pour le partage de cette découverte !

❌
❌