En résumé : Le RAG connecte un LLM à vos propres documents. Au lieu de mémoriser vos données (fine-tuning), le modèle les consulte à chaque question. Résultat : des réponses ancrées dans la réalité, mises à jour automatiquement.

1. Qu'est-ce que le RAG ? La métaphore du consultant

Imaginez un consultant brillant (le LLM) auquel vous posez une question sur votre entreprise. Deux approches :

  1. Le briefer pendant 3 mois pour qu'il mémorise tous vos documents (= fine-tuning). Coûteux, long, et il oublie au fur et à mesure que vos données changent.
  2. Lui donner accès à votre bibliothèque avant chaque réunion (= RAG). Il cherche les bons documents, les lit rapidement, et vous répond avec précision — même si vous avez ajouté un nouveau document hier.

Le RAG, c'est la deuxième approche. Introduit par Lewis et al. (Facebook AI Research, 2020), c'est aujourd'hui la technique standard pour construire des agents IA qui s'appuient sur des connaissances spécifiques.

Voir aussi notre guide sur l'agent de support client avec RAG pour un exemple complet en production.

2. Les 5 étapes d'un pipeline RAG

  1. Ingestion : vos documents (PDF, Word, pages web, bases de données) sont chargés et normalisés en texte brut.
  2. Chunking : les documents sont découpés en "chunks" (morceaux) de 200 à 500 tokens chacun. C'est une étape critique — voir section chunking.
  3. Embeddings : chaque chunk est transformé en un vecteur numérique (une liste de nombres) qui capture sa signification sémantique. Les modèles d'embedding couramment utilisés : text-embedding-3-small (OpenAI), Cohere Embed v3, nomic-embed-text (open source).
  4. Stockage : ces vecteurs sont stockés dans une base vectorielle (ChromaDB, Pinecone, Weaviate, pgvector).
  5. Retrieval + Génération : à chaque question, on calcule l'embedding de la question, on cherche les chunks les plus proches dans la base, on les injecte dans le prompt du LLM avec la question.
À retenir : Le LLM ne "voit" jamais toute votre base de connaissances d'un coup. Il reçoit seulement les 3 à 10 chunks les plus pertinents — ce qui le rend précis et économique.

3. Les bases vectorielles expliquées

Une base vectorielle stocke des représentations mathématiques du sens des textes. Deux textes sur le même sujet auront des vecteurs proches dans l'espace mathématique — même s'ils utilisent des mots différents.

Comparatif des principales options :

Base vectorielle Hébergement Prix Idéal pour
ChromaDBLocal/cloudGratuit open sourceDémarrage, prototypes
PineconeCloud géréGratuit jusqu'à 1 indexProduction SaaS
WeaviateLocal/cloudOpen source + cloudRecherche hybride
pgvectorPostgreSQLGratuit (extension)Déjà sur PostgreSQL
QdrantLocal/cloud EUOpen source + cloudRGPD, hautes perfs

4. Chunking : comment découper vos documents

La qualité du chunking détermine en grande partie la qualité du RAG. Mal découpé, un document produit des chunks qui perdent leur contexte et génèrent des réponses inexactes.

Les 3 stratégies principales :

  • Fixed-size chunking : découpage à 512 tokens avec un chevauchement (overlap) de 50 tokens. Simple, rapide, mais peut couper des phrases importantes. À utiliser pour démarrer.
  • Semantic chunking : découpage aux frontières sémantiques naturelles (paragraphes, sections). Préserve mieux le sens. Préférable pour les documents structurés (rapports, contrats).
  • Hierarchical chunking : conserve les métadonnées (titre du document, numéro de section) en plus du contenu. Le LLM peut ainsi citer ses sources précisément.
Erreur fréquente : Chunks trop grands (>1000 tokens) → le modèle reçoit trop d'information non pertinente. Chunks trop petits (<100 tokens) → perte de contexte. Commencez par 300-500 tokens avec 20% de chevauchement.

5. RAG vs fine-tuning : que choisir ?

RAG ✅ Recommandé pour les PME
  • Données qui changent souvent
  • Budget limité (pas de GPU nécessaire)
  • Besoin de traçabilité des sources
  • Déploiement rapide (jours vs mois)
Fine-tuning — cas spécifiques
  • Style de rédaction très spécifique
  • Domaine très technique et figé
  • Volume de requêtes massif (économies d'échelle)
  • Ressources techniques importantes

Pour aller plus loin : Fine-tuning vs RAG : comparaison détaillée.

6. Exemples concrets de RAG pour PME

  • Agent de support client : connecté à votre FAQ, documentation produit et historique tickets. Répond à 70% des questions sans intervention humaine. Voir notre guide complet agent support RAG.
  • Assistant RH : répond aux questions des employés sur la convention collective, le règlement intérieur, les congés. Zéro hallucination car ancré dans les documents officiels.
  • Chatbot commercial : connecté au catalogue produits et aux fiches techniques. Génère des devis personnalisés en langage naturel.
  • Veille réglementaire : indexe les textes RGPD, EU AI Act, normes sectorielles. Répond aux questions de conformité avec citation des articles précis.

7. FAQ

Peut-on créer un RAG sans développeur ?

Oui. n8n propose un nœud AI Agent avec RAG intégré. Flowise et LangFlow offrent des interfaces visuelles pour construire des pipelines RAG sans code. Voir notre guide workflows n8n.

Combien coûte un système RAG ?

Pour une PME : ChromaDB (gratuit) + text-embedding-3-small OpenAI (~0,02$/1M tokens) + Gemini 2.0 Flash pour la génération (~0,075$/1M tokens). Un système RAG pour 10 000 requêtes/mois peut coûter moins de 10€.

Le RAG est-il conforme au RGPD ?

Oui, à condition que votre stockage (base vectorielle + documents) soit hébergé selon les exigences RGPD. Pour une conformité maximale, utilisez Qdrant ou pgvector hébergés en EU. Consultez notre guide RGPD et IA pour PME.

Sources

Voir aussi