Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
Hier — 7 novembre 2025Flux principal

MocoLlamma - Ollama gérable depuis iPhone, iPad et Vision Pro

Par : Korben
7 novembre 2025 à 09:00

Vous avez installé Ollama sur votre Mac et vous êtes le plus joyeux de tous les mammifères car vous faites tourner Llama 3.x en local comme un chef. Et puis un soir, posé dans votre canapé avec votre iPad de bourgeois capitaliste, vous vous dites que ce serait bien de pull un nouveau modèle. Et là, vous réalisez qu’il va falloir sortir le MacBook, ouvrir un terminal, taper ollama pull mistral, attendre et attendre… Grosse flemme non ?

Hé oui, Ollama reste un outil en ligne de commande. C’est génial pour les devs, mais galère pour le reste et vous avez beau avoir de la puissance de calcul dans votre poche avec un iPhone ou un iPad, c’est impossible de gérer vos modèles sans SSH et sans Terminal.

Heureusement, MocoLlamma vient combler ce fossé. C’est une app de gestion Ollama pour macOS, iOS, iPadOS, et même visionOS si vous avez ce truc. C’est donc une vraie app native avec interface graphique, développée en Swift et SwiftUI dans laquelle ous ajoutez vos serveurs Ollama, et où vous gérez vos modèles, et vous testez vos LLM via un chat basique.

L’app s’organise autour de trois onglets. Le premier, Server, vous permet d’ajouter et de switcher entre plusieurs serveurs Ollama. Vous pouvez ainsi renommer chaque serveur, gérer les connexions, bref, tout ce qu’il faut pour jongler entre votre Mac local, votre serveur, ou votre instance cloud si vous en utilisez une.

Le second onglet, Model, affiche tous les modèles disponibles sur le serveur sélectionné. Vous voyez ainsi les infos de chaque modèle, vous pouvez les trier par taille, les ajouter ou les supprimer. Comme ça, plus besoin de taper ollama list pour savoir ce qui tourne. Tout est là, visuellement, avec la possibilité de gérer vos modèles d’un tapotage bien senti.

Le troisième onglet, Chat, permet de tester rapidement un modèle. C’est volontairement basique et l’idée n’est pas de remplacer ChatGPT ou Open WebUI, mais juste de vérifier qu’un modèle répond correctement. Genre, vous venez de pull Qwen 3, et vous voulez voir s’il fonctionne avant de l’intégrer dans votre workflow. Hop, quelques questions rapides dans le chat, et vous savez.

Il existe bien sûr des tonnes d’alternatives de GUI pour Ollama comme Open WebUI , LM Studio , Jan , GPT4All … Mais aucune ne supporte nativement visionOS ou les iPad / iPhone. Alors que MocoLlamma, si.

C’est actuellement la seule app qui vous permet de gérer vos LLM locaux depuis ces appareils Apple… C’est assez niche c’est vrai mais ça peut rendre service.

Le nom “MocoLlamma” est ce qu’on appelle un mot valise de “Model”, “Control”, “Ollama”, et “Manage”. C’est moche de ouf, c’est pas super à retenir, mais au moins ça décrit exactement ce que fait l’app.

Y’a la version gratuite qui est disponible sur GitHub, mais uniquement pour macOS (c’est sous license MIT) et la version payante, à 1,99 dollars sur l’App Store, supporte macOS, iOS, iPadOS, et visionOS. La différence principale pour l’app macOS c’est surtout les mises à jour automatiques. Vous payez 2 balles pour le confort.

Et là, un point crucial, sachez que MocoLlamma ne collecte AUCUNE donnée utilisateur. Bref, cette appli vient combler le trou qui se trouve entre “j’ai installé Ollama” et “je peux gérer mes modèles depuis mon iPhone”. Si vous avez ce besoin, c’est donc à considérer.

Merci à Lorenper pour la découverte.

EuroLLM - Le LLM européen qui tourne sur votre laptop

Par : Korben
6 novembre 2025 à 09:00

Faire tourner un modèle de langage européen sur votre machine sans avoir besoin d’un serveur surpuissant branché sur une centrale nucléaire, c’est maintenant possible, les amis ! Hé oui, EuroLLM vient de prouver qu’on pouvait faire tourner un modèle à 9 milliards de paramètres dans un peu moins de 6 GB de RAM sur un simple laptop.

Une seule commande Ollama , et c’est parti mon kiki !!!

Bien sûr, il est encore loin des gros modèles proprio comme GPT-5 mais c’est le enfin le premier LLM européen que VOUS pouvez faire tourner en local. C’est respectueux de votre vie privée, des droits d’auteurs et c’est gratuit !

Un projet 100% européen

EuroLLM, c’est en réalité une coalition de labos européens : Instituto Superior Técnico (Lisbonne), University of Edinburgh , Université Paris-Saclay , Unbabel , et d’autres et c’est financé par Horizon Europe et l’ EuroHPC , et ce modèle supporte les 24 langues officielles de l’UE, plus 11 langues supplémentaires (arabe, chinois, hindi, japonais, coréen, russe, turc…).

EuroLLM-9B , le modèle de base, a été entraîné sur 4 trillions de tokens avec le supercalculateur MareNostrum 5 à Barcelone (400 GPUs Nvidia H100) et l’architecture utilise du Grouped Query Attention, RoPE, SwiGLU et RMSNorm, comme tout LLM moderne qui se respecte.

Mais il existe d’autres versions comme EuroLLM-1.7B pour smartphones et bientôt EuroLLM-22B pour plus de puissance, ainsi qu’une version vision-language (EuroVLM-9B) et un modèle Mixture-of-Experts (EuroMoE-2.6B).

Et surtout c’est sous licence Apache 2.0. Donc l’usage commercial est autorisé, vous pouvez le fine-tuner sur vos données, et les modifications sont libres, sans redevance à payer. Ce n’est pas la première fois qu’il y a des LLM européens mais ils étaient soit sous licence trop restrictives ou un peu trop lourd pour être utilisé localement par les gens normaux comme vous et moi.

Maintenant comment l’installer ?

La méthode la plus simple, c’est via Ollama :

ollama run hf.co/bartowski/EuroLLM-9B-Instruct-GGUF

Ollama télécharge le modèle en version GGUF (format optimisé CPU/GPU), et vous pouvez commencer à discuter. Il existe aussi une version pré-packagée alibayram/erurollm-9b-instruct (attention, erurollm avec un “u”), quantized en Q4_K_M pour réduire la taille à 5,6 GB.

Si vous préférez Python et Hugging Face Transformers :

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "utter-project/EuroLLM-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

inputs = tokenizer("Explique-moi ce qu'est un LLM en français simple", return_tensors="pt")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0]))

Une fois téléchargé, le modèle reste en cache local. Vous pouvez alors l’utiliser offline, sans connexion internet. Et pour les machines avec moins de RAM, la version 1.7B tourne même sur des Raspberry Pi :

ollama run cas/eurollm-1.7b-instruct-q8

Alors pourquoi c’est important ?

EuroLLM ouvre l’IA européenne à des cas d’usage impossibles avec des API cloud. Par exemple une administration publique ne peut pas envoyer ses documents dans le cloud d’OpenAI… ce serait tout livrer aux américains. Elle peut donc fine-tuner EuroLLM localement. Un journaliste en zone sensible sans connexion fiable peut aussi embarquer le modèle sur son ordi portable. Même un chercheur qui manipule des données médicales confidentielles peut le faire en toute confiance avec EuroLLM puisque tout reste sur sa machine.

C’est cool quand même que l’Europe nous file un modèle gratuit qu’on peut installer chez soi et utiliser sans limite. Après c’est vrai que EuroLLM ne bat pas GPT-4 (pas encore) mais il est suffisamment bon pour 80% des cas d’utilisation réels tels que des résumés, de la traduction, des questions-réponses simples, de la génération de code basique.

La roadmap prévoit d’ajouter de la vision et de la voix aux modèles. D’ailleurs, comme je vous le disais, EuroVLM-9B est déjà en preview sur Hugging Face , ce qui ouvre la voie à de l’OCR multilingue, de l’analyse de documents visuels, ou encore à la création d’assistants vocaux dans n’importe quelle langue…

Voilà j’ai trouvé ça cool à tester et un grand merci à Letsar pour le partage !

❌
❌