Prérequis
  • Ordinateur ou serveur avec 8 Go de RAM minimum (16 Go recommandés)
  • Python 3.10+ installé
  • macOS, Linux ou Windows (WSL2)
  • Une GPU NVIDIA/AMD est fortement recommandée mais pas obligatoire

Pourquoi Ollama ?

Ollama est l'outil qui a démocratisé les LLM locaux. En une commande, il télécharge et configure des modèles de pointe (Llama, Mistral, Gemma, Phi…) et expose une API REST compatible avec l'API OpenAI. Avantages clés :

  • 100% local : aucune donnée ne quitte votre machine une fois le modèle téléchargé
  • Zéro frais d'API : pas de coût au token en production
  • Compatible RGPD maximal : vos données restent sur votre infrastructure
  • Compatible avec l'écosystème OpenAI : changez juste l'URL de base dans votre code

Étape 1 — Installer Ollama

macOS / Linux :

curl -fsSL https://ollama.com/install.sh | sh

Windows : Téléchargez l'installateur depuis ollama.com/download.

Vérifiez l'installation :

ollama --version

Étape 2 — Choisir et télécharger un modèle

ModèleTailleRAM requiseQualitéCommande
Llama 3.1 8B4,7 Go8 Go🟡 Bonneollama pull llama3.1
Mistral 7B4,1 Go8 Go🟡 Bonneollama pull mistral
Gemma 2 9B5,4 Go8 Go🟡 Bonneollama pull gemma2:9b
Llama 3.3 70B43 Go48 Go💚 Excellenteollama pull llama3.3:70b
Qwen 2.5 14B9 Go16 Go💚 Très bonneollama pull qwen2.5:14b

Pour les PME qui démarrent avec 8-16 Go de RAM, Qwen 2.5 14B ou Gemma 2 9B offrent le meilleur rapport qualité/performance :

ollama pull qwen2.5:14b
# Test rapide
ollama run qwen2.5:14b "Bonjour, présente-toi en 2 phrases"

Étape 3 — Premier agent avec Python et CrewAI

Installez les dépendances :

pip install crewai crewai-tools langchain-ollama

Créez un fichier agent_local.py :

from crewai import Agent, Task, Crew, Process
from langchain_ollama import ChatOllama

# Configuration du LLM local via Ollama
llm = ChatOllama(
  model="qwen2.5:14b",
  base_url="http://localhost:11434",
  temperature=0.1
)

# Définir un agent analyste
analyste = Agent(
  role="Analyste commercial",
  goal="Analyser les données clients et identifier des opportunités",
  backstory="Expert en analyse de données commerciales pour PME françaises.",
  llm=llm,
  verbose=True
)

# Définir la tâche
tache = Task(
  description="""Analyse ces 5 retours clients et identifie :
  1. Les 3 points de friction principaux
  2. Les opportunités d'amélioration
  3. Une recommandation prioritaire

  Retours : [CLIENT_FEEDBACK]""",
  expected_output="Rapport structuré en 3 sections avec recommandation",
  agent=analyste
)

# Lancer l'agent
crew = Crew(agents=[analyste], tasks=[tache], verbose=True)
result = crew.kickoff()
print(result)

Étape 4 — Ajouter des outils à l'agent

Les agents deviennent vraiment utiles quand on leur donne des outils. Voici un exemple avec un outil de recherche de fichiers locaux :

from crewai_tools import FileReadTool, DirectoryReadTool

# Outils locaux (aucune API externe)
lecteur_fichiers = FileReadTool()
lecteur_dossier = DirectoryReadTool(directory='./documents')

agent_docs = Agent(
  role="Analyste documentaire",
  goal="Analyser les documents locaux et répondre aux questions",
  tools=[lecteur_fichiers, lecteur_dossier],
  llm=llm
)

Étape 5 — Interface web avec Open WebUI

Pour une interface ChatGPT-like sur votre LLM local, installez Open WebUI :

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Accédez ensuite à http://localhost:3000 — vous avez une interface ChatGPT complète, 100% locale.

Optimiser les performances

  • GPU NVIDIA : Ollama détecte automatiquement CUDA — installez les drivers NVIDIA récents
  • GPU AMD : Support ROCm disponible (Linux uniquement)
  • Apple Silicon (M1/M2/M3) : Ollama utilise Metal — performances excellentes
  • CPU uniquement : Activez OLLAMA_NUM_THREADS=8 pour utiliser tous vos cœurs
  • Quantization : Les modèles en Q4_K_M (quantization 4-bit) consomment 2x moins de VRAM avec une perte de qualité minimale

Cas d'usage typiques pour PME

  • Analyse de documents confidentiels (contrats, données RH, données médicales)
  • Chatbot interne sur vos documentations propriétaires
  • Extraction automatique de données de factures sans passer par le cloud
  • Assistance à la rédaction de documents sensibles
  • Développement et test de prompts sans coût d'API

FAQ — Ollama et LLM locaux

Les modèles Ollama sont-ils aussi bons que ChatGPT ?

Sur des tâches simples (résumé, rédaction courte, extraction), les modèles 14B-70B atteignent un niveau comparable à GPT-4o. Sur des tâches complexes (raisonnement avancé, code complexe), GPT-4o et Claude restent supérieurs. La différence s'est considérablement réduite entre 2024 et 2026. Pour des données sensibles, la confidentialité justifie le compromis de performance.

Peut-on utiliser Ollama avec n8n ?

Oui. n8n dispose d'un nœud Ollama natif. Configurez l'URL de base http://localhost:11434 (ou l'IP de votre serveur Ollama) dans les credentials n8n. Vous pouvez ainsi construire des workflows d'automatisation entièrement locaux. Voir notre guide 10 workflows n8n + IA.