Raw Record Source

{
  "$type": "site.standard.document",
  "bskyPostRef": {
    "cid": "bafyreig7u5lvmlsodm5dakzrbq2oykhuudge7lfrf4vyhgfoytn77o6rni",
    "uri": "at://did:plc:zbwjcykiabagp7xou3enigo7/app.bsky.feed.post/3mnqprte7gbfg"
  },
  "coverImage": {
    "$type": "blob",
    "ref": {
      "$link": "bafkreiafoyr52sslx4fyto7bw7iedememezh76sfr2ccwa3js3c2jmrxe4"
    },
    "mimeType": "image/webp",
    "size": 59984
  },
  "description": "Quelques semaines seulement après avoir provoqué un petit séisme avec sa nouvelle génération de modèles, Google DeepMind enfonce le clou en publiant la variante Gemma 4 12B. Ce modèle multimodal de taille intermédiaire réussit un tour de force technique inédit : traiter simultanément du texte, des images et des flux audio sans s'appuyer sur le...",
  "path": "/google-gemma-4-12b-ia-multimodale-sans-encodeur-open-source/",
  "publishedAt": "2026-06-08T03:16:01.000Z",
  "site": "at://did:plc:zbwjcykiabagp7xou3enigo7/site.standard.publication/3mnjfelq3e7em",
  "tags": [
    "Applications",
    "Communauté",
    "Développement"
  ],
  "textContent": "Quelques semaines seulement après avoir provoqué un petit séisme avec sa nouvelle génération de modèles, Google DeepMind enfonce le clou en publiant la variante Gemma 4 12B. Ce modèle multimodal de taille intermédiaire réussit un tour de force technique inédit : traiter simultanément du texte, des images et des flux audio sans s’appuyer sur le moindre encodeur dédié. Une première mondiale pour une architecture à poids ouverts de ce calibre, qui bouscule l’état de l’art et rend l’IA d’entreprise hautement accessible en local. La sortie, officialisée dans l’annonce officielle de Google, vient idéalement combler le chaînon manquant au sein de la gamme. En avril dernier, nous analysions déjà comment cette lignée bousculait la concurrence internationale dans notre présentation de Gemma 4. Mais alors que les versions précédentes destinées aux architectures massives ou embarquées s’encombraient de couches de transformeurs visuels complexes et d’encodeurs audio lourds, la déclinaison 12B s’en débarrasse purement et simplement au profit d’une structure dite « Unifiée ». L’architecture unifiée : quand les pixels et les ondes deviennent du texte Dans une architecture d’intelligence artificielle multimodale conventionnelle, le traitement des données est siloté. Des modules encodeurs distincts reçoivent l’image ou le son, les traduisent dans un langage mathématique intermédiaire, puis transmettent ces représentations complexes au cœur du modèle de langage. Ce processus engendre une latence inévitable et sature la mémoire vidéo. Gemma 4 12B balaie cette redondance. Google a remplacé l’intégralité de l’encodeur visuel traditionnel par un simple module d’intégration (embeddings) ultra-léger de seulement 35 millions de paramètres. Par une simple multiplication matricielle, les blocs de pixels bruts de l’image sont directement projetés dans l’espace de jetons (tokens) du grand modèle de langage. Le traitement audio bénéficie de la même simplification radicale. Les formes d’ondes sonores brutes, capturées à une fréquence de 16 kHz et découpées en trames de 40 millisecondes, sont injectées directement dans le même espace dimensionnel que le texte, sans passer par la case habituelle d’un logiciel de reconnaissance vocale autonome. En éliminant ces intermédiaires, le modèle commence à interpréter le sens d’une image ou d’une voix sans attendre la fin d’un long pipeline de calcul informatique. Cette prouesse simplifie aussi radicalement le travail des développeurs : une unique passe d’ajustement fin (fine-tuning) via une méthode LoRA permet de mettre à jour simultanément la vision, l’audio et le texte. Du côté des performances pures, ce choix architectural s’avère particulièrement payant. Bien qu’il affiche un gabarit réduit, le modèle 12B talonne les performances des variantes beaucoup plus massives de Google sur les benchmarks les plus exigeants de l’industrie, décrochant des scores impressionnants de 77,2 % sur MMLU Pro et 78,8 % sur GPQA Diamond, le tout en consommant deux fois moins de mémoire vive. Un modèle 100 % open source taillé pour l’exécution locale L’autre excellente surprise concerne les modalités de distribution de cette mise à jour. Google confirme son virage stratégique majeur en publiant les fichiers sous licence Apache 2.0. Il ne s’agit plus seulement d’un modèle aux poids consultables (open-weights) assorti de restrictions commerciales, mais d’un véritable logiciel open source libre d’accès pour les usages industriels. L’ensemble des ressources est d’ores et déjà disponible au téléchargement sur la collection Hugging Face ainsi que sur le répertoire Kaggle dédié, complété par un dépôt officiel Gemma Skills sur GitHub pour faciliter l’intégration de compétences agentiques personnalisées. Le calibrage de Gemma 4 12B lui permet de s’exécuter confortablement au sein d’une enveloppe de 16 Go de mémoire VRAM ou de mémoire unifiée, une configuration désormais standard sur les ordinateurs portables professionnels du marché. Les ingénieurs de DeepMind ont d’ailleurs assuré une compatibilité native dès le premier jour avec les moteurs d’inférence locaux les plus populaires de l’écosystème open source, notamment vLLM, Ollama, LM Studio, Unsloth ou encore llama.cpp. Cette accessibilité immédiate se traduit concrètement par l’essor d’applications orientées vers la confidentialité absolue des données (local-first). Sous macOS, l’application open source Gemma Chat permet ainsi d’exploiter la puissance des puces Apple Silicon via le framework MLX pour faire tourner un agent de code ou un assistant vocal autonome directement sur sa machine. Dans la même lignée, l’application Eloquent de Google illustre parfaitement cette rupture technique. Pour voir ce traitement audio natif s’exécuter en temps réel, vous pouvez visionner la démonstration disponible sur la vidéo de présentation technique de Gemma 4 12B, où le modèle transcrit, formate et traduit des flux vocaux complexes de manière totalement autonome et déconnectée d’Internet. 🦋 L’actualité de l’open source dans votre flux. Suivez Goodtech sur Bluesky (ou vos applications AT Protocol préférées) grâce à notre bot officiel. Suivez, partagez, abonnez-vous à @goodtech.info !",
  "title": "Coup de tonnerre chez Google ⚡ : le nouveau modèle Gemma 4 12B détruit l’architecture classique de l’IA pour conquérir nos PC",
  "updatedAt": "2026-06-06T06:22:31.000Z"
}