1. Qu'est-ce que le RAG ? La métaphore du consultant
Imaginez un consultant brillant (le LLM) auquel vous posez une question sur votre entreprise. Deux approches :
- Le briefer pendant 3 mois pour qu'il mémorise tous vos documents (= fine-tuning). Coûteux, long, et il oublie au fur et à mesure que vos données changent.
- Lui donner accès à votre bibliothèque avant chaque réunion (= RAG). Il cherche les bons documents, les lit rapidement, et vous répond avec précision — même si vous avez ajouté un nouveau document hier.
Le RAG, c'est la deuxième approche. Introduit par Lewis et al. (Facebook AI Research, 2020), c'est aujourd'hui la technique standard pour construire des agents IA qui s'appuient sur des connaissances spécifiques.
Voir aussi notre guide sur l'agent de support client avec RAG pour un exemple complet en production.
2. Les 5 étapes d'un pipeline RAG
- Ingestion : vos documents (PDF, Word, pages web, bases de données) sont chargés et normalisés en texte brut.
- Chunking : les documents sont découpés en "chunks" (morceaux) de 200 à 500 tokens chacun. C'est une étape critique — voir section chunking.
- Embeddings : chaque chunk est transformé en un vecteur numérique (une liste de nombres) qui capture sa signification sémantique. Les modèles d'embedding couramment utilisés : text-embedding-3-small (OpenAI), Cohere Embed v3, nomic-embed-text (open source).
- Stockage : ces vecteurs sont stockés dans une base vectorielle (ChromaDB, Pinecone, Weaviate, pgvector).
- Retrieval + Génération : à chaque question, on calcule l'embedding de la question, on cherche les chunks les plus proches dans la base, on les injecte dans le prompt du LLM avec la question.
3. Les bases vectorielles expliquées
Une base vectorielle stocke des représentations mathématiques du sens des textes. Deux textes sur le même sujet auront des vecteurs proches dans l'espace mathématique — même s'ils utilisent des mots différents.
Comparatif des principales options :
| Base vectorielle | Hébergement | Prix | Idéal pour |
|---|---|---|---|
| ChromaDB | Local/cloud | Gratuit open source | Démarrage, prototypes |
| Pinecone | Cloud géré | Gratuit jusqu'à 1 index | Production SaaS |
| Weaviate | Local/cloud | Open source + cloud | Recherche hybride |
| pgvector | PostgreSQL | Gratuit (extension) | Déjà sur PostgreSQL |
| Qdrant | Local/cloud EU | Open source + cloud | RGPD, hautes perfs |
4. Chunking : comment découper vos documents
La qualité du chunking détermine en grande partie la qualité du RAG. Mal découpé, un document produit des chunks qui perdent leur contexte et génèrent des réponses inexactes.
Les 3 stratégies principales :
- Fixed-size chunking : découpage à 512 tokens avec un chevauchement (overlap) de 50 tokens. Simple, rapide, mais peut couper des phrases importantes. À utiliser pour démarrer.
- Semantic chunking : découpage aux frontières sémantiques naturelles (paragraphes, sections). Préserve mieux le sens. Préférable pour les documents structurés (rapports, contrats).
- Hierarchical chunking : conserve les métadonnées (titre du document, numéro de section) en plus du contenu. Le LLM peut ainsi citer ses sources précisément.
5. RAG vs fine-tuning : que choisir ?
- Données qui changent souvent
- Budget limité (pas de GPU nécessaire)
- Besoin de traçabilité des sources
- Déploiement rapide (jours vs mois)
- Style de rédaction très spécifique
- Domaine très technique et figé
- Volume de requêtes massif (économies d'échelle)
- Ressources techniques importantes
Pour aller plus loin : Fine-tuning vs RAG : comparaison détaillée.
6. Exemples concrets de RAG pour PME
- Agent de support client : connecté à votre FAQ, documentation produit et historique tickets. Répond à 70% des questions sans intervention humaine. Voir notre guide complet agent support RAG.
- Assistant RH : répond aux questions des employés sur la convention collective, le règlement intérieur, les congés. Zéro hallucination car ancré dans les documents officiels.
- Chatbot commercial : connecté au catalogue produits et aux fiches techniques. Génère des devis personnalisés en langage naturel.
- Veille réglementaire : indexe les textes RGPD, EU AI Act, normes sectorielles. Répond aux questions de conformité avec citation des articles précis.
7. FAQ
Peut-on créer un RAG sans développeur ?
Oui. n8n propose un nœud AI Agent avec RAG intégré. Flowise et LangFlow offrent des interfaces visuelles pour construire des pipelines RAG sans code. Voir notre guide workflows n8n.
Combien coûte un système RAG ?
Pour une PME : ChromaDB (gratuit) + text-embedding-3-small OpenAI (~0,02$/1M tokens) + Gemini 2.0 Flash pour la génération (~0,075$/1M tokens). Un système RAG pour 10 000 requêtes/mois peut coûter moins de 10€.
Le RAG est-il conforme au RGPD ?
Oui, à condition que votre stockage (base vectorielle + documents) soit hébergé selon les exigences RGPD. Pour une conformité maximale, utilisez Qdrant ou pgvector hébergés en EU. Consultez notre guide RGPD et IA pour PME.