Qu'est-ce qu'Ollama ?

Ollama est un outil open source qui permet de télécharger et d'exécuter des LLM (Llama, Mistral, Gemma, Phi…) localement sur votre ordinateur ou serveur. Il fournit une API REST compatible avec l'API OpenAI, ce qui facilite l'intégration dans des applications existantes.

Quel matériel faut-il pour faire tourner Ollama ?

Cela dépend du modèle. Pour Llama 3.1 8B : 8 Go de RAM (CPU uniquement) ou une GPU NVIDIA/AMD avec 6 Go de VRAM. Pour Llama 3.3 70B : 48 Go de RAM ou une GPU avec 40+ Go de VRAM. Sur CPU uniquement, les performances sont lentes (2-10 tokens/seconde) mais fonctionnelles. Sur GPU, attendez 20-60 tokens/seconde.

Ollama est-il vraiment 100% local ?

Oui. Une fois le modèle téléchargé, Ollama fonctionne entièrement hors ligne. Aucune requête n'est envoyée à des serveurs externes lors de l'inférence. Le modèle tourne entièrement sur votre machine. C'est la solution idéale pour les données confidentielles (médicales, juridiques, financières).

🤖 Agents IA 15 min de lecture 28 mai 2026

Créer un agent IA local avec Ollama

Guide pas à pas pour faire tourner Llama 3.3 sur votre machine et construire un agent IA qui ne transmet aucune donnée à l'extérieur — idéal pour les données sensibles.

Axel Louni Fondateur Agentix · Voir le profil

Prérequis

Ordinateur ou serveur avec 8 Go de RAM minimum (16 Go recommandés)
Python 3.10+ installé
macOS, Linux ou Windows (WSL2)
Une GPU NVIDIA/AMD est fortement recommandée mais pas obligatoire

Pourquoi Ollama ?

Ollama est l'outil qui a démocratisé les LLM locaux. En une commande, il télécharge et configure des modèles de pointe (Llama, Mistral, Gemma, Phi…) et expose une API REST compatible avec l'API OpenAI. Avantages clés :

100% local : aucune donnée ne quitte votre machine une fois le modèle téléchargé
Zéro frais d'API : pas de coût au token en production
Compatible RGPD maximal : vos données restent sur votre infrastructure
Compatible avec l'écosystème OpenAI : changez juste l'URL de base dans votre code

Étape 1 — Installer Ollama

macOS / Linux :

          curl -fsSL https://ollama.com/install.sh | sh
        

Windows : Téléchargez l'installateur depuis ollama.com/download.

Vérifiez l'installation :

          ollama --version
        

Étape 2 — Choisir et télécharger un modèle

Modèle	Taille	RAM requise	Qualité	Commande
Llama 3.1 8B	4,7 Go	8 Go	🟡 Bonne	`ollama pull llama3.1`
Mistral 7B	4,1 Go	8 Go	🟡 Bonne	`ollama pull mistral`
Gemma 2 9B	5,4 Go	8 Go	🟡 Bonne	`ollama pull gemma2:9b`
Llama 3.3 70B	43 Go	48 Go	💚 Excellente	`ollama pull llama3.3:70b`
Qwen 2.5 14B	9 Go	16 Go	💚 Très bonne	`ollama pull qwen2.5:14b`

Pour les PME qui démarrent avec 8-16 Go de RAM, Qwen 2.5 14B ou Gemma 2 9B offrent le meilleur rapport qualité/performance :

          ollama pull qwen2.5:14b

          # Test rapide

          ollama run qwen2.5:14b "Bonjour, présente-toi en 2 phrases"

Étape 3 — Premier agent avec Python et CrewAI

Installez les dépendances :

          pip install crewai crewai-tools langchain-ollama
        

Créez un fichier agent_local.py :

          from crewai import Agent, Task, Crew, Process

          from langchain_ollama import ChatOllama

          # Configuration du LLM local via Ollama

          llm = ChatOllama(

            model="qwen2.5:14b",

            base_url="http://localhost:11434",

            temperature=0.1

          )

          # Définir un agent analyste

          analyste = Agent(

            role="Analyste commercial",

            goal="Analyser les données clients et identifier des opportunités",

            backstory="Expert en analyse de données commerciales pour PME françaises.",

            llm=llm,

            verbose=True

          )

          # Définir la tâche

          tache = Task(

            description="""Analyse ces 5 retours clients et identifie :

            1. Les 3 points de friction principaux

            2. Les opportunités d'amélioration

            3. Une recommandation prioritaire

            Retours : [CLIENT_FEEDBACK]""",

            expected_output="Rapport structuré en 3 sections avec recommandation",

            agent=analyste

          )

          # Lancer l'agent

          crew = Crew(agents=[analyste], tasks=[tache], verbose=True)

          result = crew.kickoff()

          print(result)

Étape 4 — Ajouter des outils à l'agent

Les agents deviennent vraiment utiles quand on leur donne des outils. Voici un exemple avec un outil de recherche de fichiers locaux :

          from crewai_tools import FileReadTool, DirectoryReadTool

          # Outils locaux (aucune API externe)

          lecteur_fichiers = FileReadTool()

          lecteur_dossier = DirectoryReadTool(directory='./documents')

          agent_docs = Agent(

            role="Analyste documentaire",

            goal="Analyser les documents locaux et répondre aux questions",

            tools=[lecteur_fichiers, lecteur_dossier],

            llm=llm

          )

Étape 5 — Interface web avec Open WebUI

Pour une interface ChatGPT-like sur votre LLM local, installez Open WebUI :

          docker run -d -p 3000:8080 \

            --add-host=host.docker.internal:host-gateway \

            -v open-webui:/app/backend/data \

            --name open-webui \

            ghcr.io/open-webui/open-webui:main

Accédez ensuite à http://localhost:3000 — vous avez une interface ChatGPT complète, 100% locale.

Optimiser les performances

GPU NVIDIA : Ollama détecte automatiquement CUDA — installez les drivers NVIDIA récents
GPU AMD : Support ROCm disponible (Linux uniquement)
Apple Silicon (M1/M2/M3) : Ollama utilise Metal — performances excellentes
CPU uniquement : Activez OLLAMA_NUM_THREADS=8 pour utiliser tous vos cœurs
Quantization : Les modèles en Q4_K_M (quantization 4-bit) consomment 2x moins de VRAM avec une perte de qualité minimale

Cas d'usage typiques pour PME

Analyse de documents confidentiels (contrats, données RH, données médicales)
Chatbot interne sur vos documentations propriétaires
Extraction automatique de données de factures sans passer par le cloud
Assistance à la rédaction de documents sensibles
Développement et test de prompts sans coût d'API

FAQ — Ollama et LLM locaux

Les modèles Ollama sont-ils aussi bons que ChatGPT ?

Sur des tâches simples (résumé, rédaction courte, extraction), les modèles 14B-70B atteignent un niveau comparable à GPT-4o. Sur des tâches complexes (raisonnement avancé, code complexe), GPT-4o et Claude restent supérieurs. La différence s'est considérablement réduite entre 2024 et 2026. Pour des données sensibles, la confidentialité justifie le compromis de performance.

Peut-on utiliser Ollama avec n8n ?

Oui. n8n dispose d'un nœud Ollama natif. Configurez l'URL de base http://localhost:11434 (ou l'IP de votre serveur Ollama) dans les credentials n8n. Vous pouvez ainsi construire des workflows d'automatisation entièrement locaux. Voir notre guide 10 workflows n8n + IA.

Sources officielles