L’évolution récente vers une acquisition de données massives et hétérogènes a permis de populariser l’utilisation de méthodes d’apprentissage statistique également appelées Machine Learning. Cette formation vise tout d’abord à introduire les méthodes classiques de machine learning et surtout à fournir une démarche de comparaison et d’évaluation des performances de modèles. La formation traitera à la fois de problématiques de régression et de classification avec une mise en œuvre sous R.

Objectifs

A l’issue de cette formation, les participants seront capables de :

  • Choisir un modèle de machine learning
  • Estimer les performances attendues par un modèle de Machine Learning
  • Proposer un outil de prédiction sous R

Contenu

Dans un premier temps, nous introduirons les concepts fondamentaux qui guident une démarche de machine learning, en particulier (1) la différence entre prédiction et explication d’un phénomène, (2) la notion de flexibilité d’un modèle et (3) les techniques de ré-échantillonnage. L’utilisation de nombreux exemples nous permettra d’illustrer ces notions tout en présentant les méthodes usuelles telles les k-plus proches voisins (knn), les forêts aléatoires (random forests), les machines à vecteurs de supports (support vector machine) ou encore les réseaux de neurones. Dans un second temps nous insisterons sur la mise en place de procédures fiables d’évaluation des modèles. Ces procédures s’appuient sur des indicateurs de performances (erreur quadratique moyenne, taux de bons classements, …) dont l’estimation fait souvent appel à des méthodes de ré-échantillonage telles que la validation croisée ou le bootstrap. Tout au long de la formation, nous utiliserons le logiciel R pour illustrer les notions et faire le lien entre concepts théoriques et applications pratiques.

Points forts

De nombreux exemples tout au long de la formation permettront de se familiariser avec les outils présentés. La mise en situation a pour objectif de faire le lien entre les concepts fondamentaux de la démarche de Machine Learning et l’application concrète de cette démarche.

Public ciblé

Ce module est ouvert à toute personne souhaitant acquérir un niveau de maîtrise dans la bonne application d’une démarche de Machine Learning. Il s’adresse à des apprenants ayant déjà des connaissances en modélisation statistique traditionnelle (comme le modèle linéaire) et ayant des compétences d’utilisation de R.

Intervenants

Mathieu Emily

Nombre de stagiaires maximum : 12

Pré-requis

Avoir à minima une maitrise des commandes de base du logiciel R comme l’importation d’un jeu de données et la maîtrise de fonctions d’estimation de modèles telle la fonction lm. Idéalement les participants pourront avoir suivi la formation « Manipulation et visualisation des données » et « Démarche statistique et modèles linéaires avec R ».

Données