- 1 token ≈ ¾ de mot en anglais, ≈ ½ à ⅔ de mot en français
- La context window est la mémoire de travail du LLM — tout ce qui dépasse est oublié
- Le coût des APIs LLM est facturé au token (entrée + sortie séparément)
- Un modèle moins cher peut être 10 à 50x moins coûteux pour des tâches simples
Qu'est-ce qu'un token ?
Les LLM ne traitent pas du texte caractère par caractère, ni mot par mot. Ils utilisent des tokens — des séquences de caractères définies par un algorithme de tokenisation (BPE : Byte Pair Encoding).
Concrètement :
- "chat" → 1 token
- "chatbot" → 2 tokens (chat + bot)
- "intelligence" → 2-3 tokens selon le modèle
- "automatisation" → 3-4 tokens (le français est moins efficacement encodé que l'anglais)
- Un emoji → 1-3 tokens
- Un chiffre → généralement 1 token
Pour estimer le nombre de tokens de votre texte : nombre de mots × 1,4 pour du français, nombre de mots × 1,3 pour de l'anglais. Ou utilisez le tokenizer officiel OpenAI pour compter précisément.
La context window : la mémoire de travail du LLM
La context window (ou fenêtre de contexte) est la quantité maximale de texte qu'un modèle peut "voir" et traiter en une seule fois. Elle comprend :
- Le system prompt
- L'historique de la conversation
- Les documents injectés (RAG)
- Le prompt de l'utilisateur
- La réponse générée
Tout ce qui dépasse la context window est tronqué ou ignoré. C'est pour cela qu'un LLM "oublie" le début d'une longue conversation.
Context windows des principaux modèles en 2026
| Modèle | Context window | Équivalent texte |
|---|---|---|
| GPT-4o | 128 000 tokens | ~96 000 mots / ~350 pages |
| GPT-4o mini | 128 000 tokens | ~96 000 mots / ~350 pages |
| Claude 3.5 Sonnet | 200 000 tokens | ~150 000 mots / ~550 pages |
| Claude 3.7 Sonnet | 200 000 tokens | ~150 000 mots / ~550 pages |
| Gemini 2.0 Flash | 1 000 000 tokens | ~750 000 mots / ~2 700 pages |
| Gemini 1.5 Pro | 2 000 000 tokens | ~1 500 000 mots / ~5 000 pages |
| Llama 3.3 70B | 128 000 tokens | ~96 000 mots / ~350 pages |
| Mistral Large 2 | 128 000 tokens | ~96 000 mots / ~350 pages |
Le coût des tokens : comment ça marche
Les APIs LLM facturent généralement séparément les tokens d'entrée (input) et de sortie (output). Les tokens de sortie sont typiquement 3 à 5 fois plus chers car ils nécessitent plus de calcul (génération séquentielle).
| Modèle | Input (/ M tokens) | Output (/ M tokens) | Ratio output/input |
|---|---|---|---|
| GPT-4o (mai 2026) | 2,50 $ | 10,00 $ | 4x |
| GPT-4o mini | 0,15 $ | 0,60 $ | 4x |
| Claude 3.5 Sonnet | 3,00 $ | 15,00 $ | 5x |
| Claude 3.5 Haiku | 0,80 $ | 4,00 $ | 5x |
| Gemini 2.0 Flash | 0,075 $ | 0,30 $ | 4x |
| Mistral Large 2 | 2,00 $ | 6,00 $ | 3x |
Tarifs indicatifs — vérifiez les pages pricing officielles pour les valeurs actuelles.
Exemple de calcul de coût
Imaginons un workflow de résumé d'email : 500 emails par mois, chaque email fait 300 tokens, le résumé fait 100 tokens.
| Modèle | Coût mensuel estimé |
|---|---|
| GPT-4o | 500 × (300 × 2,50 + 100 × 10,00) / 1 000 000 ≈ 0,88 $ |
| GPT-4o mini | 500 × (300 × 0,15 + 100 × 0,60) / 1 000 000 ≈ 0,05 $ |
| Gemini 2.0 Flash | 500 × (300 × 0,075 + 100 × 0,30) / 1 000 000 ≈ 0,026 $ |
Pour ce cas simple, GPT-4o mini est 17x moins cher que GPT-4o. Choisir le bon modèle pour chaque tâche est la première optimisation à faire.
Comment optimiser votre consommation de tokens
1. Choisir le bon modèle
Utilisez un modèle puissant (GPT-4o, Claude 3.5 Sonnet) uniquement pour les tâches complexes. Pour les tâches simples (classification, résumé, extraction), un modèle plus petit (GPT-4o mini, Haiku, Gemini Flash) suffit souvent et coûte 10-50x moins cher.
2. Optimiser les prompts
- Éliminer les formules de politesse inutiles ("S'il vous plaît, veuillez bien vouloir…")
- Utiliser des instructions concises et directes
- Éviter de répéter des instructions déjà dans le system prompt
- Utiliser des abréviations ou acronymes définis une fois
3. Prompt caching
Claude et GPT-4o supportent le prompt caching : si votre system prompt est identique d'une requête à l'autre, il est mis en cache et facturé à tarif réduit (jusqu'à 90 % de réduction sur les tokens cachés avec Claude).
4. Résumer et chunker les longs documents
Plutôt que d'envoyer un document entier de 50 pages, résumez-le d'abord ou utilisez le RAG pour n'extraire que les parties pertinentes. Voir notre article sur le RAG expliqué simplement.
5. Limiter la longueur des réponses
Précisez dans vos prompts la longueur maximale attendue. "Réponds en 3 bullet points maximum" ou "Limite ta réponse à 150 mots" réduisent significativement les tokens de sortie (les plus chers).
Le problème du "lost in the middle"
Les recherches ont montré que les LLM ont tendance à mieux retenir les informations au début et à la fin de leur contexte, et à "oublier" ou sous-pondérer ce qui est au milieu. Ce phénomène, appelé "lost in the middle", est important pour le RAG et les prompts longs.
Conséquences pratiques :
- Placez les instructions les plus importantes au début et à la fin du prompt
- Pour le RAG, placez les chunks les plus pertinents en premier
- Divisez les très longs documents en plusieurs appels séquentiels plutôt qu'un seul appel énorme
Outils pour mesurer et optimiser
- OpenAI Tokenizer — compter les tokens de vos prompts
- tiktoken (Python) — bibliothèque de tokenisation OpenAI
- Langfuse — observabilité LLM avec tracking des coûts
- Helicone — proxy LLM avec analytics de coûts
FAQ — Tokens et context window
Pourquoi les modèles Gemini ont-ils des context windows si grandes ?
Google a développé une architecture d'attention spécifique (Gemini utilise une variante de Multi-Query Attention optimisée) qui permet de gérer des contextes très longs de manière plus efficace que les approches traditionnelles. Cependant, une grande context window ne garantit pas des performances parfaites sur tout le contexte — le phénomène "lost in the middle" s'amplifie avec la longueur.
Les images consomment-elles des tokens ?
Oui. Les modèles multimodaux convertissent les images en tokens pour les traiter. Une image standard consomme entre 800 et 2 000 tokens selon sa résolution et le modèle. Une image haute résolution peut consommer jusqu'à 4 000-8 000 tokens avec GPT-4V. Redimensionnez les images à la résolution minimale nécessaire pour économiser des tokens.
Peut-on calculer les tokens avant d'envoyer une requête ?
Oui. La bibliothèque tiktoken (Python, open source) calcule précisément les tokens pour les modèles OpenAI. Anthropic propose une API de comptage de tokens. Pour les modèles open source, la bibliothèque HuggingFace Tokenizers est la référence. Cette capacité est utile pour valider que vous restez dans la context window et pour estimer les coûts à l'avance.