Glossaire IA 2026 : 60 termes expliqués pour PME

Comment utiliser ce glossaire

Chaque terme est défini en 1-3 phrases accessibles, avec un lien vers l'article de référence quand il existe. Utilisez Ctrl+F pour trouver rapidement un terme.

Agent IA

Système d'intelligence artificielle capable de percevoir son environnement, planifier des actions, utiliser des outils (APIs, navigation web, code) et accomplir des objectifs complexes de manière autonome. Contrairement à un chatbot, un agent peut exécuter des tâches multi-étapes sans supervision humaine à chaque étape. → Guide complet agent IA PME

API (Application Programming Interface)

Interface permettant à deux logiciels de communiquer. Dans le contexte IA, une API LLM permet d'envoyer du texte à un modèle et de recevoir une réponse — sans avoir à héberger le modèle soi-même. OpenAI, Anthropic, Google exposent tous leurs modèles via des APIs.

Architecture multi-agents

Système où plusieurs agents IA spécialisés collaborent, chacun ayant un rôle précis (Chercheur, Rédacteur, Vérificateur…). Plus puissant qu'un agent unique pour les tâches complexes. → Architectures d'agents IA

Attention (mécanisme d')

Composant central des transformers qui permet au modèle de "faire attention" aux parties les plus pertinentes du texte d'entrée. C'est ce mécanisme qui donne aux LLM leur capacité à comprendre le contexte à longue distance dans un texte.

Base vectorielle (Vector Database)

Base de données spécialisée dans le stockage et la recherche de vecteurs (embeddings). Permet de trouver rapidement les documents les plus "proches sémantiquement" d'une requête. Utilisée comme composant central du RAG. Exemples : ChromaDB, Qdrant, Pinecone, pgvector. → RAG expliqué simplement

Benchmark

Test standardisé permettant de comparer les performances de différents modèles IA sur des tâches précises (raisonnement, code, mathématiques, compréhension). Exemples : MMLU, HumanEval, MATH, GSM8K. Les benchmarks ne reflètent pas toujours les performances en conditions réelles.

BPE (Byte Pair Encoding)

Algorithme de tokenisation utilisé par la plupart des LLM modernes. Il décompose le texte en sous-unités fréquentes plutôt qu'en mots entiers, ce qui permet de gérer efficacement les mots rares ou les langues avec beaucoup de morphologie (comme le français). → Guide tokens et context window

Chain-of-Thought (CoT)

Technique de prompting qui force le LLM à raisonner étape par étape avant de donner sa réponse finale. Réduit significativement les erreurs logiques. Formulé avec "Raisonne étape par étape" ou "Explique ton raisonnement". → Guide prompt engineering

Chunking

Découpage d'un document long en segments plus petits (chunks) pour le RAG. La taille et la stratégie de chunking (fixe, sémantique, hiérarchique) impactent fortement la qualité des réponses. → RAG expliqué simplement

Context window (Fenêtre de contexte)

Quantité maximale de texte qu'un LLM peut traiter en une seule fois, exprimée en tokens. Tout ce qui dépasse est oublié. Claude 3.5 : 200 000 tokens. Gemini 2.0 Flash : 1 million de tokens. → Guide complet

Core Web Vitals

Trois métriques de performance web mesurées par Google : LCP (temps de chargement du contenu principal), CLS (stabilité visuelle) et INP (réactivité aux interactions). Facteurs de classement SEO depuis 2021.

DPA (Data Processing Agreement)

Contrat de sous-traitance obligatoire (article 28 RGPD) à signer avec tout prestataire qui traite des données personnelles pour votre compte. Indispensable avec les éditeurs IA (OpenAI, Anthropic, Google) avant d'utiliser leurs APIs avec des données clients. → Guide RGPD × IA

Décision automatisée

Décision prise par un système IA sans intervention humaine et qui produit un effet juridique ou significatif sur une personne. Encadrée par l'article 22 RGPD et l'EU AI Act. Nécessite une transparence et un droit à la contestation.

EEAT (Experience, Expertise, Authoritativeness, Trustworthiness)

Critères d'évaluation de la qualité d'un contenu selon les guidelines de Google. L'IA ne peut pas avoir d'expérience réelle — Google valorise les auteurs humains identifiables, avec des preuves d'expertise vérifiables.

Embedding (Vecteur d'embedding)

Représentation numérique d'un texte sous forme de vecteur de nombres réels (souvent 1 536 ou 3 072 dimensions). Deux textes sémantiquement proches ont des embeddings proches dans l'espace vectoriel. Base du RAG et des moteurs de recherche sémantique.

EU AI Act

Règlement européen sur l'intelligence artificielle (2024/1689), en vigueur depuis août 2024. Classe les systèmes IA par niveau de risque et impose des obligations proportionnelles. → Guide EU AI Act pour PME

Few-shot prompting

Technique consistant à fournir 2 à 5 exemples entrée/sortie dans le prompt avant de poser la vraie question. Améliore la cohérence et le format des réponses de 40 à 60 % par rapport au zero-shot. → Guide prompt engineering

Fine-tuning

Processus de ré-entraînement d'un modèle pré-existant sur un jeu de données spécialisé pour adapter son comportement, son style ou ses performances. Plus coûteux que le RAG mais utile pour des tâches très répétitives avec des données annotées de qualité. → Fine-tuning vs RAG

GPAI (General Purpose AI)

Modèle d'IA à usage général, capable d'accomplir de nombreuses tâches différentes. ChatGPT, Claude, Gemini sont des GPAI. L'EU AI Act impose des obligations spécifiques aux fournisseurs de GPAI depuis août 2025.

GPU (Graphics Processing Unit)

Processeur spécialisé dans les calculs parallèles massivement utilisé pour entraîner et faire tourner les LLM. NVIDIA domine le marché des GPU pour l'IA (A100, H100, H200). Pour les PME, les GPU cloud sont accessibles sans investissement matériel.

Hallucination

Phénomène où un LLM génère des informations fausses ou inventées avec une apparente confiance. Problème majeur en production — les LLM ne "savent" pas qu'ils inventent. La technique RAG réduit les hallucinations en ancrant les réponses dans des sources documentées.

Hreflang

Attribut HTML indiquant aux moteurs de recherche la langue et la région cible d'une page. Essentiel pour le SEO international et les sites multilingues.

Inférence

Processus d'utilisation d'un modèle IA entraîné pour générer une réponse à partir d'un input. Distinct de l'entraînement — l'inférence est ce que vous payez lors de chaque appel API.

JSON-LD

Format de données structurées recommandé par Google pour le SEO. Intégré dans la balise <script type="application/ld+json"> des pages HTML. Permet d'indiquer aux moteurs de recherche le type de contenu (article, FAQ, produit…) et génère des rich snippets.

LangChain

Framework Python open source pour construire des applications avec des LLM. Fournit des abstractions pour les chaînes, la mémoire, le RAG et les agents. → Guide LangChain débutant

LangGraph

Extension de LangChain pour modéliser des workflows d'agents complexes sous forme de graphes d'état avec boucles et conditions. Recommandé pour les agents en production robustes.

LLM (Large Language Model)

Modèle de langage de grande taille entraîné sur d'immenses corpus de texte. Capable de comprendre et générer du texte, du code, des raisonnements complexes. Exemples : GPT-4o (OpenAI), Claude 3.5 (Anthropic), Gemini 2.0 (Google), Llama 3.3 (Meta). → Comparatif LLM 2026

Lost in the middle

Phénomène où les LLM sous-pondèrent les informations situées au milieu d'un long contexte par rapport au début et à la fin. Implique de placer les instructions critiques aux extrémités du prompt. → Guide context window

Mistral AI

Startup française d'IA fondée en 2023, créatrice des modèles Mistral 7B, Mixtral, Mistral Large et Le Chat. Propose un hébergement souverain en France via OVHcloud — solution privilégiée pour la conformité RGPD des PME françaises. → Guide Mistral AI pour PME

Modèle de fondation (Foundation Model)

Grand modèle pré-entraîné sur de vastes données pouvant être adapté à de nombreuses tâches en aval. GPT-4, Claude, Gemini, Llama sont des modèles de fondation. Le terme est parfois utilisé comme synonyme de LLM.

Multimodal

Qualifie un modèle capable de traiter plusieurs types de données : texte, images, audio, vidéo. GPT-4o, Claude 3.5, Gemini 2.0 sont multimodaux. Permet par exemple de décrire une image ou d'analyser un document scanné.

Ollama

Outil open source permettant de télécharger et d'exécuter des LLM (Llama, Mistral, Gemma…) localement sur votre machine. 100% offline une fois le modèle téléchargé — idéal pour les données confidentielles. → Guide Ollama pour PME

OWASP LLM Top 10

Liste des 10 vulnérabilités de sécurité les plus critiques des applications basées sur des LLM, publiée par l'OWASP. La prompt injection est en tête. Référence indispensable pour sécuriser les applications IA en production. → Checklist sécurité

Paramètre (d'un modèle)

Valeur numérique ajustable du réseau de neurones, déterminée lors de l'entraînement. Un LLM "70B" a 70 milliards de paramètres. Plus de paramètres = généralement plus de capacités, mais aussi plus de ressources nécessaires.

Prompt

Instruction ou question envoyée à un LLM pour obtenir une réponse. La qualité du prompt détermine en grande partie la qualité de la réponse. → Guide prompt engineering complet

Prompt injection

Attaque où un utilisateur malveillant insère des instructions dans les données traitées par une application IA pour détourner son comportement. Vulnérabilité #1 selon l'OWASP LLM Top 10. → Guide protection prompt injection

Prompt engineering

L'art de rédiger des instructions précises pour guider un LLM vers le résultat souhaité. Inclut des techniques comme RCTF, few-shot, chain-of-thought, contraintes négatives. → Guide complet

Quantization

Technique de compression d'un LLM qui réduit la précision des paramètres (ex : de 16 bits à 4 bits). Permet de faire tourner des modèles plus grands sur du matériel plus limité, avec une légère perte de qualité. Q4_K_M est le format quantisé le plus utilisé avec Ollama.

RAG (Retrieval-Augmented Generation)

Architecture qui enrichit le contexte d'un LLM avec des documents récupérés dynamiquement depuis une base vectorielle. Permet de répondre à des questions factuelles sur vos données propres sans fine-tuning. → RAG expliqué simplement

RCTF (Rôle, Contexte, Tâche, Format)

Méthode structurée pour rédiger des prompts efficaces. Définir qui parle (Rôle), dans quelle situation (Contexte), ce qu'il faut faire (Tâche) et comment présenter le résultat (Format). → Guide RCTF

RGPD

Règlement Général sur la Protection des Données — réglementation européenne en vigueur depuis 2018. S'applique à tout traitement de données personnelles dans l'UE. L'utilisation d'outils IA avec des données clients nécessite une conformité RGPD rigoureuse. → Guide RGPD × IA

Self-hosted (Auto-hébergé)

Déploiement d'un logiciel sur sa propre infrastructure (serveur, VPS) plutôt que d'utiliser la version cloud de l'éditeur. Avantage principal : contrôle total des données. Exemple : n8n auto-hébergé pour les workflows d'automatisation. → Guide n8n self-hosted

Streaming

Affichage des tokens générés par le LLM au fur et à mesure, plutôt qu'attendre la réponse complète. Améliore l'expérience utilisateur (réponse perçue plus rapide). Supporté nativement par LangChain, OpenAI SDK, Anthropic SDK.

System prompt

Instructions envoyées au LLM avant la conversation utilisateur pour définir son comportement, son rôle, ses contraintes et son format de réponse par défaut. Persiste pour toute la session, contrairement au prompt utilisateur. → Guide prompt engineering

Température (d'un LLM)

Paramètre contrôlant le niveau de créativité/aléatoire des réponses. Température 0 = réponses déterministes et précises. Température 1 = réponses créatives et variées. Pour les tâches analytiques : 0-0.3. Pour la création : 0.7-1.

Token

Unité de base du traitement du texte dans un LLM. ≈ ¾ de mot en anglais, ≈ ½ à ⅔ de mot en français. Les APIs LLM sont facturées au token (input + output séparément). → Guide complet tokens

Transformer

Architecture de réseau de neurones introduite en 2017 (papier "Attention is All You Need") qui a révolutionné le NLP. Tous les LLM modernes (GPT, Claude, Gemini, Llama) sont basés sur des architectures transformer.

Vector store (voir Base vectorielle)

Synonyme de base de données vectorielle. → RAG expliqué simplement

Zero-shot prompting

Prompting sans exemple fourni. Le modèle répond depuis sa connaissance générale. Fonctionne bien pour les tâches simples et les LLM de dernière génération, mais moins cohérent que le few-shot sur des tâches répétitives formatées. → Guide prompt engineering