Big data : ingénierie et traitement

Présentation
Pédagogie
Organisation
Formations concernées

Acquis d'apprentissage

Le cours se veut être un prolongement naturel des cours de bases de données dispensés en bachelier en sciences informatiques, en ingénieur de gestion et en sciences mathématiques.

Son objectif est d'étendre les connaissances et les compétences en ingénierie des bases de données dans un contexte « big data », en considérant trois dimensions principales:

1) dimension technologique: on étudiera les différentes familles de bases de données contemporaines « scalable », en particulier les bases de données NoSQL: graph-based, document-based, column-based, key-value, multi-model.

2) dimension structurelle: on ne considèrera plus seulement une base de données avec un schéma, mais plusieurs sources de données (généralement hétérogènes) avec plusieurs schémas à intégrer/agréger/consolider/mapper. On insistera sur les aspects méthodologiques de ce processus.

3) dimension algorithmique: on abordera les langages et familles d’algorithmes permettant une manipulation efficace de grands volumes de données. On parlera notamment de traitement parallèle avec - entre-autres - le paterne MapReduce et ses implémentations (Hadoop).

Le cours aura également pour objectif d’adopter un regard critique par rapport aux différents paradigmes technologiques abordés dans le cours (les forces, les faiblesses et les risques) et à comprendre les liens entre le choix de paradigmes, le choix de modélisation et le type de traitement.

Méthodes d'enseignement

Le cours alterne, pour chacune des trois dimensions abordées, une présentation des concepts théoriques et une mise en pratique de ces concepts.

La mise en pratique pourra revêtir diverses formes telles que :

préparation d’exercices à domicile et résolution en classe ;
préparation et résolution d’exercices en classe ;
démonstration de l’utilisation des technologies en classe.
un projet de groupe

Ces exercices se feront sur papier ou sur machine.

Méthode d'évaluation

L’évaluation consistera en un projet de groupe (rapport écrit + défense orale), appliquant les principe théoriques vus au cours et la mise en pratique proposée lors des travaux pratiques.

Une attention particulière sera apportée au regard critique que l’étudiant sera capable de porter sur chaque paradigme ainsi que sa capacité à choisir le plus approprié en fonction du contexte.

Sources, références et supports éventuels

Le support de cours prendra la forme d’une liste de diaporamas en anglais. Une liste de lectures additionnelles pourra également être mise à la disposition des étudiants.

Langue d'enseignement

Français

Formation	Programme d’études	Bloc	Crédits	Obligatoire
Master 120 en sciences informatiques, à finalité spécialisée en data science	Standard	0	5	Oui
Master 120 en ingénieur de gestion, à finalité spécialisée en data science	Standard	0	5	Oui
Master 120 en sciences mathématiques, à finalité spécialisée en data science	Standard	0	5	Oui
Certificat d'université d'Executive Master en Data Science	Standard	0	5	Oui
Master 120 en sciences informatiques, à finalité spécialisée en data science	Standard	1	5	Oui
Master 120 en ingénieur de gestion, à finalité spécialisée en data science	Standard	1	5	Oui
Certificat d'université d'Executive Master en Data Science	Standard	1	5	Oui
Master 120 en sciences mathématiques, à finalité spécialisée en data science	Standard	2	5	Oui