Machine Learning en Pratique — Supervised, Unsupervised et Renforcement

1. IA, ML et Deep Learning : les 3 cercles concentriques

Ces trois termes sont souvent confondus alors qu'ils désignent des domaines emboîtés.

Intelligence Artificielle (IA) : le domaine le plus large. Tout système qui simule des comportements intelligents, y compris les systèmes experts à base de règles, la planification, la vision et le NLP.
Machine Learning (ML) : sous-ensemble de l'IA. Le système apprend automatiquement des patterns dans les données sans programmation explicite des règles.
Deep Learning (DL) : sous-ensemble du ML utilisant des réseaux de neurones profonds (multiple couches cachées). Dominé par les CNN, RNN et Transformers.

IA ⊃ ML ⊃ Deep Learning

IA classique : if-then-else, logique formelle, systèmes experts
ML          : régression, SVM, Random Forest, k-NN
Deep Learning: CNN, RNN, LSTM, Transformers, LLMs

2. Définition formelle du ML

Tom Mitchell (1997) donne la définition formelle la plus citée :

Définition de Tom Mitchell
"Un programme informatique apprend d'une expérience E par rapport à une tâche T et une mesure de performance P, si ses performances sur T, mesurées par P, s'améliorent avec l'expérience E."

Exemple concret : filtre anti-spam
T = classifier un email comme spam ou non-spam
E = observer des emails étiquetés (spam/non-spam)
P = proportion d'emails correctement classifiés

Le modèle apprend si P(T) augmente avec plus d'expérience E.

Cette définition distingue le ML de la programmation classique : au lieu d'écrire les règles, on fournit des exemples (T, E) et l'algorithme découvre les règles qui optimisent P.

3. Apprentissage supervisé

En apprentissage supervisé, on dispose d'un ensemble de données étiquetées : chaque exemple (x, y) associe des caractéristiques d'entrée x à une étiquette cible y.

Régression

La cible y est une valeur continue. Le modèle apprend à prédire des valeurs numériques.

Exemples de régression :
- Prix d'une maison (€) en fonction de sa surface, localisation
- Température demain en fonction des données météo
- Chiffre d'affaires prévu en fonction des dépenses marketing

Algorithmes : Régression linéaire, SVR, Random Forest Regressor, MLP

Classification

La cible y est une catégorie discrète. Le modèle apprend à affecter des labels.

Exemples de classification :
- Email : spam (1) ou non-spam (0)        → binaire
- Image : chat / chien / oiseau           → multiclasse
- Patient : risque faible / moyen / élevé → multiclasse

Algorithmes : Régression logistique, SVM, Random Forest, Réseau de neurones

4. Apprentissage non supervisé

Pas d'étiquettes : l'algorithme découvre lui-même la structure cachée dans les données.

Clustering

Regrouper les données en clusters homogènes. L'algorithme K-means est le plus populaire : il minimise la variance intra-cluster.

K-means (k groupes):
1. Initialiser k centroïdes aléatoirement
2. Affecter chaque point au centroïde le plus proche
3. Recalculer les centroïdes (moyenne du cluster)
4. Répéter 2-3 jusqu'à convergence

Applications: segmentation clients, compression d'image, anomaly detection

Réduction de dimensionnalité

Réduire le nombre de features tout en conservant l'information essentielle. PCA (Analyse en Composantes Principales) projette les données sur les directions de variance maximale.

PCA : réduire p dimensions → k composantes (k << p)
- Préserve la variance maximale
- Utile pour la visualisation (2D/3D) et la compression
- Supprime le bruit et la redondance

5. Apprentissage par renforcement

Un agent interagit avec un environnement, reçoit des récompenses et apprend une politique (mapping état → action) qui maximise la récompense cumulée.

Boucle RL :
État s_t → Agent → Action a_t → Environnement
         ← Récompense r_t, Nouvel état s_{t+1} ←

Objectif : maximiser E[Σ γᵗ·r_t] (somme actualisée des récompenses)
γ ∈ [0,1] : facteur d'actualisation (importance du futur)

Applications emblématiques du RL
AlphaGo/AlphaZero (jeux de Go et échecs), OpenAI Five (Dota 2), contrôle de fusion nucléaire (DeepMind), optimisation des datacenters Google (−40% énergie), RLHF pour l'alignement des LLMs (ChatGPT, Claude).

6. Concepts clés

Features et Labels

Feature (caractéristique) : variable d'entrée du modèle
  → surface_m2, nb_pieces, code_postal pour prédire le prix

Label (étiquette) : variable cible à prédire
  → prix_€ (régression) ou catégorie (classification)

Feature Engineering : transformer/créer des features pertinentes
  → ratio pièces/surface, distance centre-ville, ancienneté

Découpage train/validation/test

Données totales → 3 ensembles :
Train (60-70%)      : apprentissage du modèle
Validation (15-20%) : tuning des hyperparamètres
Test (15-20%)       : évaluation finale (ne jamais toucher avant la fin !)

Règle d'or : le test set est intouchable pendant le développement.

Normalisation

La plupart des algorithmes ML sont sensibles à l'échelle des features. Normaliser évite qu'une feature en milliers domine une autre en dixièmes.

Min-Max Scaling : x' = (x - x_min) / (x_max - x_min) → [0, 1]
Standard Scaler : x' = (x - μ) / σ → moyenne 0, écart-type 1

7. Biais, variance et régularisation

Le dilemme biais-variance est fondamental en ML. L'erreur totale d'un modèle se décompose en :

Erreur totale = Biais² + Variance + Bruit irréductible

Biais élevé   → underfitting : modèle trop simple
               → n'apprend pas les patterns des données
Variance élevée → overfitting : modèle trop complexe
               → mémorise les données, ne généralise pas

Overfitting : le piège classique
Un modèle qui obtient 99% sur le train set et 62% sur le test set souffre d'overfitting sévère. Il a "mémorisé" les exemples d'entraînement au lieu d'apprendre les patterns généraux.

Régularisation

Techniques pour contrôler l'overfitting :

L1 (Lasso) : pénalité sur |w|  → sélection de features (poids → 0)
L2 (Ridge) : pénalité sur w²   → poids petits mais non nuls
Dropout    : désactiver des neurones aléatoirement (réseaux de neurones)
Early stopping : arrêter quand la validation loss remonte

Validation croisée k-fold

Diviser le dataset en k partitions. Entraîner sur k-1 partitions, valider sur la k-ième. Répéter k fois et moyenner les scores. Donne une estimation robuste des performances.

k-fold Cross Validation (k=5):
Fold 1 : [Test][Train][Train][Train][Train]
Fold 2 : [Train][Test][Train][Train][Train]
...
Fold 5 : [Train][Train][Train][Train][Test]
Score final = moyenne des 5 scores de validation

8. Métriques d'évaluation

Classification

Matrice de confusion :
         Prédit +    Prédit -
Réel +  [ TP (Vrai +) | FN (Faux -) ]
Réel -  [ FP (Faux +) | TN (Vrai -) ]

Accuracy  = (TP + TN) / Total
Précision = TP / (TP + FP)   → "Parmi les prédictions +, combien sont vraies ?"
Rappel    = TP / (TP + FN)   → "Parmi les vrais +, combien ai-je trouvés ?"
F1-Score  = 2 × (Précision × Rappel) / (Précision + Rappel)

Quand utiliser précision vs rappel ?
Détection cancer : maximiser le rappel (ne pas manquer de cas). Filtre spam : maximiser la précision (ne pas bloquer d'emails légitimes). F1 est utile quand les classes sont déséquilibrées.

Régression

MAE  = mean(|y_pred - y_real|)           → robuste aux outliers
MSE  = mean((y_pred - y_real)²)          → pénalise les grandes erreurs
RMSE = sqrt(MSE)                         → même unité que y
R²   = 1 - SS_res/SS_tot ∈ [0,1]        → proportion variance expliquée

FAQ — Questions fréquentes

Combien de données faut-il pour faire du Machine Learning ?

Cela dépend de la complexité du problème et de l'algorithme. Pour un modèle linéaire simple, quelques centaines d'exemples suffisent. Pour un réseau de neurones profond, il faut généralement des milliers à millions d'exemples. La règle empirique : au moins 10× plus d'exemples que de paramètres du modèle. Le transfer learning permet de contourner ce problème avec peu de données.

Quelle est la différence entre un hyperparamètre et un paramètre ?

Les paramètres sont appris automatiquement par l'algorithme pendant l'entraînement (ex: poids d'un réseau de neurones, coefficients d'une régression). Les hyperparamètres sont fixés manuellement avant l'entraînement (ex: taux d'apprentissage, nombre de couches, k dans k-NN, C dans SVM). L'optimisation des hyperparamètres (Grid Search, Random Search, Bayesian optimization) est une étape cruciale du ML pipeline.

L'accuracy est-elle toujours la bonne métrique ?

Non. L'accuracy est trompeuse sur des datasets déséquilibrés. Exemple : si 95% des emails sont légitimes, un classifieur qui dit toujours "non-spam" obtient 95% d'accuracy mais est inutile. Pour les problèmes déséquilibrés, préférer F1-score, AUC-ROC, ou la matrice de confusion complète. Pour la régression médicale, le RMSE peut masquer des erreurs catastrophiques rares : utiliser le MAE ou des métriques spécifiques au domaine.

Qu'est-ce que la malédiction de la dimensionnalité ?

Plus le nombre de features augmente, plus l'espace des données devient creux : les points deviennent exponentiellement plus éloignés les uns des autres. Un espace à 100 dimensions nécessite exponentiellement plus de données pour être correctement échantillonné qu'un espace à 2 dimensions. Conséquences : les distances perdent leur signification, les algorithmes basés sur la distance (k-NN) dégradent leurs performances, et l'overfitting devient plus probable. Remèdes : PCA, sélection de features, régularisation.

📋 Mentions légales et droits d'utilisation

Ce cours académique est basé sur des ressources pédagogiques disponibles gratuitement sur Internet sous licence Creative Commons (CC BY). Conformément aux termes de cette licence, le contenu peut être librement partagé et adapté à des fins éducatives, à condition de citer les auteurs originaux. Ce site ne revendique aucun droit de propriété sur les documents sources. Pour toute question : contact InfoBoxTV.

Voir aussi

🎓 ML Avancé (94 pages) 🧠 Réseaux de neurones 🤖 Introduction à l'IA