Learning outcomes

Ce cours se veut une introduction à certaines méthodes modernes dans le domaine de la statistique. En particulier, celui-ci s'intéressera aux données dites ``à grande dimension". Au terme du cours, l'étudiant.e maîtrisera les outils permettant d'analyser des données pour lequel les méthodes ``classiques" (telles que, par exemple, celles vues au cours de statistiques multivariées) ne sont plus valables ou même disponibles.

Le cours sera divisé en deux volets, dans chacun desquels les outils mathématiques utilisés diffèrent. Les sujets de chacun des volets seront choisis, en concertation avec les étudiants, dans la liste suivante: (a) classification, (b) l'étude de vecteurs aléatoires à grande dimension (grand p, petit n), (c) l'analyse de données fonctionnelles, (d) profondeur statistique.

Goals

L'objectif du cours est de couvrir de nombreuses méthodes de classifcation, d'analyse non paramétrique, des données à haute dimension ou fonctionnelles. Au terme du cours, l'étudiant.e pourra (i) reconnaître quand et pourquoi l'utilisation de telles méthodes est nécessaire; (ii) implémenter ces méthodes sur des jeux de données simulées et réelles; (iii) en justifier les fondements théoriques.

Content

Une table des matières esquissée de chacun des volets potentiels se trouve ci-dessous:

(a) Classification: analyse discriminante, classification par arbres et forêts, régression logistique, réseaux de neurones

(b) analyse multivariée en haute dimension: sélection de variable, sparsité, régression (telle que la régression ridge ou le LASSO), analyse en composantes principales, la classification (supervisée ou non), etc.

(c) analyse de données fonctionnelles:  distributions de probabilités sur des espaces fonctionnels, régression fonctionnelle, analyse en composantes principales, séries chronologiques fonctionnelles.

(d) profondeur statistique: notions de profondeurs de position, implémentation, profondeurs générales, de scatter, classification fondée sur la profondeur.

Table of contents

(a) TBD

(b) I. Introduction, II. Régression linéaire III. Propriétés IV. Sélection de modèle et validation V.Estimation de covariance

(c) VI. Représentation de données fonctionnelles VII. Analyse fonctionnelle VIII. Inférence statistique Hilbertienne

(d) TBD

Exercices

Illustration des concepts et résultats du cours. Preuve de résultats théoriques. Implémentation des méthodes. 

Teaching methods

Le cours magistral s'articule autour de slides, présentés et suivis en cours, complétés de notes (contenant, entre autres, les preuves). Toutes les ressources du cours (y compris les séances d'exercices et leurs corrigés) seront disponibles sur Webcampus. Des preuves vidéos sont également disponibles.

Assessment method

L'évaluation du cours se fera via un projet détaillé de l'étudiant.e, qui sera ensuite défendu oralement. L'objectif du projet sera soit d'analyser un jeu de données (à fournir par l'étudiant ou fourni, au choix) et, ce faisant, de démontrer la maîtrise (technique, théorique et pratique) du cours soit la présentation technique d'un papier de recherche du sujet. La défense orale du projet se fera en public, à l'issue de laquelle l'étudiant se verra poser diverses questions afin de tester sa compréhension de la matière. 

Un examen oral vérifiera la bonne compréhension des concepts du cours.

La note finale sera la moyenne arithmétique des deux notes si celles-ci sont supérieures à 10, le minimum sinon.

 

Sources, references and any support material

Toutes les sources et références seront disponibles sur Webcampus. Celles-ci contiendront les slides utilisés au cours ainsi que les vidéos associés à ceux-ci, les séances d'exercices, leurs corrigés, etc.

 

Language of instruction