- Ordinateur ou serveur avec 8 Go de RAM minimum (16 Go recommandés)
- Python 3.10+ installé
- macOS, Linux ou Windows (WSL2)
- Une GPU NVIDIA/AMD est fortement recommandée mais pas obligatoire
Pourquoi Ollama ?
Ollama est l'outil qui a démocratisé les LLM locaux. En une commande, il télécharge et configure des modèles de pointe (Llama, Mistral, Gemma, Phi…) et expose une API REST compatible avec l'API OpenAI. Avantages clés :
- 100% local : aucune donnée ne quitte votre machine une fois le modèle téléchargé
- Zéro frais d'API : pas de coût au token en production
- Compatible RGPD maximal : vos données restent sur votre infrastructure
- Compatible avec l'écosystème OpenAI : changez juste l'URL de base dans votre code
Étape 1 — Installer Ollama
macOS / Linux :
Windows : Téléchargez l'installateur depuis ollama.com/download.
Vérifiez l'installation :
Étape 2 — Choisir et télécharger un modèle
| Modèle | Taille | RAM requise | Qualité | Commande |
|---|---|---|---|---|
| Llama 3.1 8B | 4,7 Go | 8 Go | 🟡 Bonne | ollama pull llama3.1 |
| Mistral 7B | 4,1 Go | 8 Go | 🟡 Bonne | ollama pull mistral |
| Gemma 2 9B | 5,4 Go | 8 Go | 🟡 Bonne | ollama pull gemma2:9b |
| Llama 3.3 70B | 43 Go | 48 Go | 💚 Excellente | ollama pull llama3.3:70b |
| Qwen 2.5 14B | 9 Go | 16 Go | 💚 Très bonne | ollama pull qwen2.5:14b |
Pour les PME qui démarrent avec 8-16 Go de RAM, Qwen 2.5 14B ou Gemma 2 9B offrent le meilleur rapport qualité/performance :
# Test rapide
ollama run qwen2.5:14b "Bonjour, présente-toi en 2 phrases"
Étape 3 — Premier agent avec Python et CrewAI
Installez les dépendances :
Créez un fichier agent_local.py :
from langchain_ollama import ChatOllama
# Configuration du LLM local via Ollama
llm = ChatOllama(
model="qwen2.5:14b",
base_url="http://localhost:11434",
temperature=0.1
)
# Définir un agent analyste
analyste = Agent(
role="Analyste commercial",
goal="Analyser les données clients et identifier des opportunités",
backstory="Expert en analyse de données commerciales pour PME françaises.",
llm=llm,
verbose=True
)
# Définir la tâche
tache = Task(
description="""Analyse ces 5 retours clients et identifie :
1. Les 3 points de friction principaux
2. Les opportunités d'amélioration
3. Une recommandation prioritaire
Retours : [CLIENT_FEEDBACK]""",
expected_output="Rapport structuré en 3 sections avec recommandation",
agent=analyste
)
# Lancer l'agent
crew = Crew(agents=[analyste], tasks=[tache], verbose=True)
result = crew.kickoff()
print(result)
Étape 4 — Ajouter des outils à l'agent
Les agents deviennent vraiment utiles quand on leur donne des outils. Voici un exemple avec un outil de recherche de fichiers locaux :
# Outils locaux (aucune API externe)
lecteur_fichiers = FileReadTool()
lecteur_dossier = DirectoryReadTool(directory='./documents')
agent_docs = Agent(
role="Analyste documentaire",
goal="Analyser les documents locaux et répondre aux questions",
tools=[lecteur_fichiers, lecteur_dossier],
llm=llm
)
Étape 5 — Interface web avec Open WebUI
Pour une interface ChatGPT-like sur votre LLM local, installez Open WebUI :
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Accédez ensuite à http://localhost:3000 — vous avez une interface ChatGPT complète, 100% locale.
Optimiser les performances
- GPU NVIDIA : Ollama détecte automatiquement CUDA — installez les drivers NVIDIA récents
- GPU AMD : Support ROCm disponible (Linux uniquement)
- Apple Silicon (M1/M2/M3) : Ollama utilise Metal — performances excellentes
- CPU uniquement : Activez
OLLAMA_NUM_THREADS=8pour utiliser tous vos cœurs - Quantization : Les modèles en Q4_K_M (quantization 4-bit) consomment 2x moins de VRAM avec une perte de qualité minimale
Cas d'usage typiques pour PME
- Analyse de documents confidentiels (contrats, données RH, données médicales)
- Chatbot interne sur vos documentations propriétaires
- Extraction automatique de données de factures sans passer par le cloud
- Assistance à la rédaction de documents sensibles
- Développement et test de prompts sans coût d'API
FAQ — Ollama et LLM locaux
Les modèles Ollama sont-ils aussi bons que ChatGPT ?
Sur des tâches simples (résumé, rédaction courte, extraction), les modèles 14B-70B atteignent un niveau comparable à GPT-4o. Sur des tâches complexes (raisonnement avancé, code complexe), GPT-4o et Claude restent supérieurs. La différence s'est considérablement réduite entre 2024 et 2026. Pour des données sensibles, la confidentialité justifie le compromis de performance.
Peut-on utiliser Ollama avec n8n ?
Oui. n8n dispose d'un nœud Ollama natif. Configurez l'URL de base http://localhost:11434 (ou l'IP de votre serveur Ollama) dans les credentials n8n. Vous pouvez ainsi construire des workflows d'automatisation entièrement locaux. Voir notre guide 10 workflows n8n + IA.