1. IA, ML et Deep Learning : les 3 cercles concentriques
Ces trois termes sont souvent confondus alors qu'ils désignent des domaines emboîtés.
- Intelligence Artificielle (IA) : le domaine le plus large. Tout système qui simule des comportements intelligents, y compris les systèmes experts à base de règles, la planification, la vision et le NLP.
- Machine Learning (ML) : sous-ensemble de l'IA. Le système apprend automatiquement des patterns dans les données sans programmation explicite des règles.
- Deep Learning (DL) : sous-ensemble du ML utilisant des réseaux de neurones profonds (multiple couches cachées). Dominé par les CNN, RNN et Transformers.
IA ⊃ ML ⊃ Deep Learning
IA classique : if-then-else, logique formelle, systèmes experts
ML : régression, SVM, Random Forest, k-NN
Deep Learning: CNN, RNN, LSTM, Transformers, LLMs
2. Définition formelle du ML
Tom Mitchell (1997) donne la définition formelle la plus citée :
"Un programme informatique apprend d'une expérience E par rapport à une tâche T et une mesure de performance P, si ses performances sur T, mesurées par P, s'améliorent avec l'expérience E."
Exemple concret : filtre anti-spam
T = classifier un email comme spam ou non-spam
E = observer des emails étiquetés (spam/non-spam)
P = proportion d'emails correctement classifiés
Le modèle apprend si P(T) augmente avec plus d'expérience E.
Cette définition distingue le ML de la programmation classique : au lieu d'écrire les règles, on fournit des exemples (T, E) et l'algorithme découvre les règles qui optimisent P.
3. Apprentissage supervisé
En apprentissage supervisé, on dispose d'un ensemble de données étiquetées : chaque exemple (x, y) associe des caractéristiques d'entrée x à une étiquette cible y.
Régression
La cible y est une valeur continue. Le modèle apprend à prédire des valeurs numériques.
Exemples de régression :
- Prix d'une maison (€) en fonction de sa surface, localisation
- Température demain en fonction des données météo
- Chiffre d'affaires prévu en fonction des dépenses marketing
Algorithmes : Régression linéaire, SVR, Random Forest Regressor, MLP
Classification
La cible y est une catégorie discrète. Le modèle apprend à affecter des labels.
Exemples de classification :
- Email : spam (1) ou non-spam (0) → binaire
- Image : chat / chien / oiseau → multiclasse
- Patient : risque faible / moyen / élevé → multiclasse
Algorithmes : Régression logistique, SVM, Random Forest, Réseau de neurones
4. Apprentissage non supervisé
Pas d'étiquettes : l'algorithme découvre lui-même la structure cachée dans les données.
Clustering
Regrouper les données en clusters homogènes. L'algorithme K-means est le plus populaire : il minimise la variance intra-cluster.
K-means (k groupes):
1. Initialiser k centroïdes aléatoirement
2. Affecter chaque point au centroïde le plus proche
3. Recalculer les centroïdes (moyenne du cluster)
4. Répéter 2-3 jusqu'à convergence
Applications: segmentation clients, compression d'image, anomaly detection
Réduction de dimensionnalité
Réduire le nombre de features tout en conservant l'information essentielle. PCA (Analyse en Composantes Principales) projette les données sur les directions de variance maximale.
PCA : réduire p dimensions → k composantes (k << p)
- Préserve la variance maximale
- Utile pour la visualisation (2D/3D) et la compression
- Supprime le bruit et la redondance
5. Apprentissage par renforcement
Un agent interagit avec un environnement, reçoit des récompenses et apprend une politique (mapping état → action) qui maximise la récompense cumulée.
Boucle RL :
État s_t → Agent → Action a_t → Environnement
← Récompense r_t, Nouvel état s_{t+1} ←
Objectif : maximiser E[Σ γᵗ·r_t] (somme actualisée des récompenses)
γ ∈ [0,1] : facteur d'actualisation (importance du futur)
AlphaGo/AlphaZero (jeux de Go et échecs), OpenAI Five (Dota 2), contrôle de fusion nucléaire (DeepMind), optimisation des datacenters Google (−40% énergie), RLHF pour l'alignement des LLMs (ChatGPT, Claude).
6. Concepts clés
Features et Labels
Feature (caractéristique) : variable d'entrée du modèle
→ surface_m2, nb_pieces, code_postal pour prédire le prix
Label (étiquette) : variable cible à prédire
→ prix_€ (régression) ou catégorie (classification)
Feature Engineering : transformer/créer des features pertinentes
→ ratio pièces/surface, distance centre-ville, ancienneté
Découpage train/validation/test
Données totales → 3 ensembles :
Train (60-70%) : apprentissage du modèle
Validation (15-20%) : tuning des hyperparamètres
Test (15-20%) : évaluation finale (ne jamais toucher avant la fin !)
Règle d'or : le test set est intouchable pendant le développement.
Normalisation
La plupart des algorithmes ML sont sensibles à l'échelle des features. Normaliser évite qu'une feature en milliers domine une autre en dixièmes.
Min-Max Scaling : x' = (x - x_min) / (x_max - x_min) → [0, 1]
Standard Scaler : x' = (x - μ) / σ → moyenne 0, écart-type 1
7. Biais, variance et régularisation
Le dilemme biais-variance est fondamental en ML. L'erreur totale d'un modèle se décompose en :
Erreur totale = Biais² + Variance + Bruit irréductible
Biais élevé → underfitting : modèle trop simple
→ n'apprend pas les patterns des données
Variance élevée → overfitting : modèle trop complexe
→ mémorise les données, ne généralise pas
Un modèle qui obtient 99% sur le train set et 62% sur le test set souffre d'overfitting sévère. Il a "mémorisé" les exemples d'entraînement au lieu d'apprendre les patterns généraux.
Régularisation
Techniques pour contrôler l'overfitting :
L1 (Lasso) : pénalité sur |w| → sélection de features (poids → 0)
L2 (Ridge) : pénalité sur w² → poids petits mais non nuls
Dropout : désactiver des neurones aléatoirement (réseaux de neurones)
Early stopping : arrêter quand la validation loss remonte
Validation croisée k-fold
Diviser le dataset en k partitions. Entraîner sur k-1 partitions, valider sur la k-ième. Répéter k fois et moyenner les scores. Donne une estimation robuste des performances.
k-fold Cross Validation (k=5):
Fold 1 : [Test][Train][Train][Train][Train]
Fold 2 : [Train][Test][Train][Train][Train]
...
Fold 5 : [Train][Train][Train][Train][Test]
Score final = moyenne des 5 scores de validation
8. Métriques d'évaluation
Classification
Matrice de confusion :
Prédit + Prédit -
Réel + [ TP (Vrai +) | FN (Faux -) ]
Réel - [ FP (Faux +) | TN (Vrai -) ]
Accuracy = (TP + TN) / Total
Précision = TP / (TP + FP) → "Parmi les prédictions +, combien sont vraies ?"
Rappel = TP / (TP + FN) → "Parmi les vrais +, combien ai-je trouvés ?"
F1-Score = 2 × (Précision × Rappel) / (Précision + Rappel)
Détection cancer : maximiser le rappel (ne pas manquer de cas). Filtre spam : maximiser la précision (ne pas bloquer d'emails légitimes). F1 est utile quand les classes sont déséquilibrées.
Régression
MAE = mean(|y_pred - y_real|) → robuste aux outliers
MSE = mean((y_pred - y_real)²) → pénalise les grandes erreurs
RMSE = sqrt(MSE) → même unité que y
R² = 1 - SS_res/SS_tot ∈ [0,1] → proportion variance expliquée
FAQ — Questions fréquentes
Combien de données faut-il pour faire du Machine Learning ?
Cela dépend de la complexité du problème et de l'algorithme. Pour un modèle linéaire simple, quelques centaines d'exemples suffisent. Pour un réseau de neurones profond, il faut généralement des milliers à millions d'exemples. La règle empirique : au moins 10× plus d'exemples que de paramètres du modèle. Le transfer learning permet de contourner ce problème avec peu de données.
Quelle est la différence entre un hyperparamètre et un paramètre ?
Les paramètres sont appris automatiquement par l'algorithme pendant l'entraînement (ex: poids d'un réseau de neurones, coefficients d'une régression). Les hyperparamètres sont fixés manuellement avant l'entraînement (ex: taux d'apprentissage, nombre de couches, k dans k-NN, C dans SVM). L'optimisation des hyperparamètres (Grid Search, Random Search, Bayesian optimization) est une étape cruciale du ML pipeline.
L'accuracy est-elle toujours la bonne métrique ?
Non. L'accuracy est trompeuse sur des datasets déséquilibrés. Exemple : si 95% des emails sont légitimes, un classifieur qui dit toujours "non-spam" obtient 95% d'accuracy mais est inutile. Pour les problèmes déséquilibrés, préférer F1-score, AUC-ROC, ou la matrice de confusion complète. Pour la régression médicale, le RMSE peut masquer des erreurs catastrophiques rares : utiliser le MAE ou des métriques spécifiques au domaine.
Qu'est-ce que la malédiction de la dimensionnalité ?
Plus le nombre de features augmente, plus l'espace des données devient creux : les points deviennent exponentiellement plus éloignés les uns des autres. Un espace à 100 dimensions nécessite exponentiellement plus de données pour être correctement échantillonné qu'un espace à 2 dimensions. Conséquences : les distances perdent leur signification, les algorithmes basés sur la distance (k-NN) dégradent leurs performances, et l'overfitting devient plus probable. Remèdes : PCA, sélection de features, régularisation.
📋 Mentions légales et droits d'utilisation
Ce cours académique est basé sur des ressources pédagogiques disponibles gratuitement sur Internet sous licence Creative Commons (CC BY). Conformément aux termes de cette licence, le contenu peut être librement partagé et adapté à des fins éducatives, à condition de citer les auteurs originaux. Ce site ne revendique aucun droit de propriété sur les documents sources. Pour toute question : contact InfoBoxTV.