Gemma 4 VLA sur Jetson Orin : l'IA qui décide seule d'ouvrir les yeux
Pourquoi ça compte pour toi
C'est la première démo vraiment fonctionnelle d'une VLA (Vision Language Action) sur du matériel grand public. Pas de keyword, pas de logique figée : le modèle raisonne sur ce qu'il doit faire. Pour les créateurs et entrepreneurs, ça signifie qu'on peut bâtir des assistants visuels intelligents sans cloud, sans dépendre d'une API payante, et sans latence réseau.
Ce qu'il faut retenir
- 1.Gemma 4 décide autonomement si elle doit accéder à la webcam pour répondre (pas de trigger hardcodé)
- 2.Stack complet open-source : Parakeet STT + Gemma 4 + Kokoro TTS, tout localement sur Jetson Orin Nano Super
- 3.Tuto complet gratuit avec code GitHub : setup système, Python, llama.cpp, calibrage micro/speaker inclus
## Pourquoi c'est différent
D'habitude, un assistant multimodal, c'est : tu demandes → il analyse la webcam → il répond. Ici, c'est : tu demandes → le modèle **raisonne** sur ce qu'il a besoin de voir → il appelle la webcam si nécessaire → il répond avec le contexte visuel.
L'exemple classique : "Qu'est-ce que j'ai sur mon bureau ?" → Gemma ouvre les yeux d'elle-même. "Quelle heure il est ?" → pas besoin de webcam, elle skip.
## Hardware requis (minimaliste)
- NVIDIA Jetson Orin Nano Super (8 GB) — c'est le point clé, rien de plus puissant nécessaire - Une webcam USB (la Logitech C920 est testée, mais tout Linux-compatible marche) - Un micro USB et une enceinte USB
C'est ça. Pas de GPU externe, pas de cloud.
## Setup en 6 étapes
**Étape 1-2 : dépendances système + Python**
Les commandes `apt install` pour audio, webcam, Python. Rien de surprenant.
**Étape 3 : libérer de la RAM (critique)**
C'est un 8 GB très serré. Le tuto te guide pour tuer Docker, GNOME, tracker-miner, et ajouter 8 GB de swap. Sans ça, le modèle ne charge pas.
**Étape 4 : serveur llama.cpp + Gemma 4**
Tu compiles llama.cpp native (CUDA ON, architecture 87 pour Jetson), tu télécharges la quantization Q4_K_M du modèle (~9 GB) et le vision projector (`mmproj`). Puis tu lances le serveur sur le port 8080.
**Étape 5 : calibrer micro, speaker, webcam**
Des commandes pour trouver les bons devices Linux (`arecord -l`, `pactl`, `v4l2-ctl`), et un quick test audio pour vérifier que tu t'entends.
**Étape 6 : lancer le script VLA**
Une ligne Python. D'abord SPACE pour enregistrer ta question, SPACE pour arrêter. Le script télécharge les modèles TTS/STT au premier coup, puis c'est live.
## Le side technique
Le script expose **un seul tool** à Gemma : `look_and_answer`. Pas de condition, pas de regex sur les mots-clés. C'est le flag `--jinja` sur llama-server qui active le tool-calling natif du modèle.
## Voices dispo
Kokoro TTS embarque plusieurs voix : `af_jessica`, `af_nova`, `am_puck`, `bf_emma`, `am_onyx`. Tu peux switcher avec `export VOICE`.
## Mode texte
Si tu veux skipper le setup audio, il y a `--text` pour tester le LLM seul.
## La vraie question
Ça fait quoi, une VLA qui fonctionne vraiment ? Ici, ça veut dire : l'IA n'est plus une boîte noire qui répond, c'est un agent qui raisonne sur ses propres inputs. Elle te parle, elle voit si elle doit voir, elle combine les infos. Zéro latence cloud, zéro données envoyées dehors. Pour du prototypage rapide ou des cas d'usage privés (santé, légal, R&D), c'est un changement de game.
Essayer maintenant
Cloner le repo GitHub et lancer la démo →Source