Qu'est-ce qu'un token dans un LLM ?

Un token est l'unité de base du traitement du texte dans un LLM. Ce n'est pas exactement un mot : un token correspond environ à 3/4 de mot en anglais, et à un peu moins en français (le français utilise plus de tokens par mot). Un token peut être un mot entier, une partie de mot, ou un caractère de ponctuation. En moyenne, 1 000 tokens ≈ 750 mots en anglais, ou ≈ 600-650 mots en français.

Qu'est-ce que la context window d'un LLM ?

La context window (fenêtre de contexte) est la quantité maximale de texte qu'un LLM peut traiter en une seule fois, exprimée en tokens. Elle inclut à la fois le prompt d'entrée et la réponse générée. Un modèle avec 128 000 tokens de context window peut traiter environ 96 000 mots simultanément — soit un roman entier.

Comment réduire ses coûts de tokens LLM ?

Principales stratégies : (1) Utiliser le modèle le plus petit adapté à la tâche (GPT-4o mini vs GPT-4o = 15x moins cher). (2) Optimiser les prompts pour éliminer les formulations redondantes. (3) Résumer ou chunker les documents longs avant de les envoyer. (4) Utiliser le prompt caching pour les system prompts répétitifs. (5) Mettre en cache les résultats fréquents côté application.

🎓 Académie 10 min de lecture 28 mai 2026

Tokens et context window : guide LLM 2026

Comprendre les tokens et la fenêtre de contexte est essentiel pour maîtriser les coûts, les performances et les limites de vos outils IA.

Axel Louni Fondateur Agentix · Voir le profil

À retenir

1 token ≈ ¾ de mot en anglais, ≈ ½ à ⅔ de mot en français
La context window est la mémoire de travail du LLM — tout ce qui dépasse est oublié
Le coût des APIs LLM est facturé au token (entrée + sortie séparément)
Un modèle moins cher peut être 10 à 50x moins coûteux pour des tâches simples

Qu'est-ce qu'un token ?

Les LLM ne traitent pas du texte caractère par caractère, ni mot par mot. Ils utilisent des tokens — des séquences de caractères définies par un algorithme de tokenisation (BPE : Byte Pair Encoding).

Concrètement :

"chat" → 1 token
"chatbot" → 2 tokens (chat + bot)
"intelligence" → 2-3 tokens selon le modèle
"automatisation" → 3-4 tokens (le français est moins efficacement encodé que l'anglais)
Un emoji → 1-3 tokens
Un chiffre → généralement 1 token

Règle pratique

Pour estimer le nombre de tokens de votre texte : nombre de mots × 1,4 pour du français, nombre de mots × 1,3 pour de l'anglais. Ou utilisez le tokenizer officiel OpenAI pour compter précisément.

La context window : la mémoire de travail du LLM

La context window (ou fenêtre de contexte) est la quantité maximale de texte qu'un modèle peut "voir" et traiter en une seule fois. Elle comprend :

Le system prompt
L'historique de la conversation
Les documents injectés (RAG)
Le prompt de l'utilisateur
La réponse générée

Tout ce qui dépasse la context window est tronqué ou ignoré. C'est pour cela qu'un LLM "oublie" le début d'une longue conversation.

Context windows des principaux modèles en 2026

Modèle	Context window	Équivalent texte
GPT-4o	128 000 tokens	~96 000 mots / ~350 pages
GPT-4o mini	128 000 tokens	~96 000 mots / ~350 pages
Claude 3.5 Sonnet	200 000 tokens	~150 000 mots / ~550 pages
Claude 3.7 Sonnet	200 000 tokens	~150 000 mots / ~550 pages
Gemini 2.0 Flash	1 000 000 tokens	~750 000 mots / ~2 700 pages
Gemini 1.5 Pro	2 000 000 tokens	~1 500 000 mots / ~5 000 pages
Llama 3.3 70B	128 000 tokens	~96 000 mots / ~350 pages
Mistral Large 2	128 000 tokens	~96 000 mots / ~350 pages

Le coût des tokens : comment ça marche

Les APIs LLM facturent généralement séparément les tokens d'entrée (input) et de sortie (output). Les tokens de sortie sont typiquement 3 à 5 fois plus chers car ils nécessitent plus de calcul (génération séquentielle).

Modèle	Input (/ M tokens)	Output (/ M tokens)	Ratio output/input
GPT-4o (mai 2026)	2,50 $	10,00 $	4x
GPT-4o mini	0,15 $	0,60 $	4x
Claude 3.5 Sonnet	3,00 $	15,00 $	5x
Claude 3.5 Haiku	0,80 $	4,00 $	5x
Gemini 2.0 Flash	0,075 $	0,30 $	4x
Mistral Large 2	2,00 $	6,00 $	3x

Tarifs indicatifs — vérifiez les pages pricing officielles pour les valeurs actuelles.

Exemple de calcul de coût

Imaginons un workflow de résumé d'email : 500 emails par mois, chaque email fait 300 tokens, le résumé fait 100 tokens.

Modèle	Coût mensuel estimé
GPT-4o	500 × (300 × 2,50 + 100 × 10,00) / 1 000 000 ≈ 0,88 $
GPT-4o mini	500 × (300 × 0,15 + 100 × 0,60) / 1 000 000 ≈ 0,05 $
Gemini 2.0 Flash	500 × (300 × 0,075 + 100 × 0,30) / 1 000 000 ≈ 0,026 $

Pour ce cas simple, GPT-4o mini est 17x moins cher que GPT-4o. Choisir le bon modèle pour chaque tâche est la première optimisation à faire.

Comment optimiser votre consommation de tokens

1. Choisir le bon modèle

Utilisez un modèle puissant (GPT-4o, Claude 3.5 Sonnet) uniquement pour les tâches complexes. Pour les tâches simples (classification, résumé, extraction), un modèle plus petit (GPT-4o mini, Haiku, Gemini Flash) suffit souvent et coûte 10-50x moins cher.

2. Optimiser les prompts

Éliminer les formules de politesse inutiles ("S'il vous plaît, veuillez bien vouloir…")
Utiliser des instructions concises et directes
Éviter de répéter des instructions déjà dans le system prompt
Utiliser des abréviations ou acronymes définis une fois

3. Prompt caching

Claude et GPT-4o supportent le prompt caching : si votre system prompt est identique d'une requête à l'autre, il est mis en cache et facturé à tarif réduit (jusqu'à 90 % de réduction sur les tokens cachés avec Claude).

4. Résumer et chunker les longs documents

Plutôt que d'envoyer un document entier de 50 pages, résumez-le d'abord ou utilisez le RAG pour n'extraire que les parties pertinentes. Voir notre article sur le RAG expliqué simplement.

5. Limiter la longueur des réponses

Précisez dans vos prompts la longueur maximale attendue. "Réponds en 3 bullet points maximum" ou "Limite ta réponse à 150 mots" réduisent significativement les tokens de sortie (les plus chers).

Le problème du "lost in the middle"

Les recherches ont montré que les LLM ont tendance à mieux retenir les informations au début et à la fin de leur contexte, et à "oublier" ou sous-pondérer ce qui est au milieu. Ce phénomène, appelé "lost in the middle", est important pour le RAG et les prompts longs.

Conséquences pratiques :

Placez les instructions les plus importantes au début et à la fin du prompt
Pour le RAG, placez les chunks les plus pertinents en premier
Divisez les très longs documents en plusieurs appels séquentiels plutôt qu'un seul appel énorme

Outils pour mesurer et optimiser

OpenAI Tokenizer — compter les tokens de vos prompts
tiktoken (Python) — bibliothèque de tokenisation OpenAI
Langfuse — observabilité LLM avec tracking des coûts
Helicone — proxy LLM avec analytics de coûts

FAQ — Tokens et context window

Pourquoi les modèles Gemini ont-ils des context windows si grandes ?

Google a développé une architecture d'attention spécifique (Gemini utilise une variante de Multi-Query Attention optimisée) qui permet de gérer des contextes très longs de manière plus efficace que les approches traditionnelles. Cependant, une grande context window ne garantit pas des performances parfaites sur tout le contexte — le phénomène "lost in the middle" s'amplifie avec la longueur.

Les images consomment-elles des tokens ?

Oui. Les modèles multimodaux convertissent les images en tokens pour les traiter. Une image standard consomme entre 800 et 2 000 tokens selon sa résolution et le modèle. Une image haute résolution peut consommer jusqu'à 4 000-8 000 tokens avec GPT-4V. Redimensionnez les images à la résolution minimale nécessaire pour économiser des tokens.

Peut-on calculer les tokens avant d'envoyer une requête ?

Oui. La bibliothèque tiktoken (Python, open source) calcule précisément les tokens pour les modèles OpenAI. Anthropic propose une API de comptage de tokens. Pour les modèles open source, la bibliothèque HuggingFace Tokenizers est la référence. Cette capacité est utile pour valider que vous restez dans la context window et pour estimer les coûts à l'avance.

Sources officielles