Big data : ingénierie et traitement
- Code de l'UE IDASM101
-
Horaire
30 15Quadri 2
- Crédits ECTS 5
- Langue
- Professeur Cleve Anthony
Le cours se veut être un prolongement naturel des cours de bases de données dispensés en bachelier en sciences informatiques, en ingénieur de gestion et en sciences mathématiques.
Son objectif est d'étendre les connaissances et les compétences en ingénierie des bases de données dans un contexte « big data », en considérant trois dimensions principales:
1) dimension technologique: on étudiera les différentes familles de bases de données contemporaines « scalable », en particulier les bases de données NoSQL: graph-based, document-based, column-based, key-value, multi-model.
2) dimension structurelle: on ne considèrera plus seulement une base de données avec un schéma, mais plusieurs sources de données (généralement hétérogènes) avec plusieurs schémas à intégrer/agréger/consolider/mapper. On insistera sur les aspects méthodologiques de ce processus.
3) dimension algorithmique: on abordera les langages et familles d’algorithmes permettant une manipulation efficace de grands volumes de données. On parlera notamment de traitement parallèle avec - entre-autres - le paterne MapReduce et ses implémentations (Hadoop).
Le cours aura également pour objectif d’adopter un regard critique par rapport aux différents paradigmes technologiques abordés dans le cours (les forces, les faiblesses et les risques) et à comprendre les liens entre le choix de paradigmes, le choix de modélisation et le type de traitement.
Le cours alterne, pour chacune des trois dimensions abordées, une présentation des concepts théoriques et une mise en pratique de ces concepts.
La mise en pratique pourra revêtir diverses formes telles que :
prépaation d’exercices à domicile et résolution en classe ;
préparation et résolution d’exercices en classe ;
démonstration de l’utilisation des technologies en classe.
Ces exercices se feront sur papier ou sur machine.
L’évaluation écrite portera à la fois sur la compréhension et l’appropriation des concepts théoriques vus au cours.
Une attention particulière sera apportée au regard critique que l’étudiant sera capable de porter sur chaque paradigme ainsi que sa capacité à choisir le plus approprié en fonction du contexte.
L’évaluation comportera la résolution d’exercices découlant de la mise en pratique réalisée aux cours.
Le support de cours prendra la forme d’une liste de diaporamas. Une liste de lectures additionnelles pourra également être mise à la disposition des étudiants.
Formation | Programme d’études | Bloc | Crédits | Obligatoire |
---|---|---|---|---|
Master 120 en sciences informatiques, à finalité spécialisée en data science | Standard | 0 | 5 | |
Master 120 en ingénieur de gestion, à finalité spécialisée en data science | Standard | 0 | 5 | |
Certificat d'université d'Executive Master en data science | Standard | 0 | 5 | |
Master 120 en sciences mathématiques, à finalité spécialisée en data science | Standard | 0 | 5 | |
Master 120 en sciences informatiques, à finalité spécialisée en data science | Standard | 1 | 5 | |
Master 120 en ingénieur de gestion, à finalité spécialisée en data science | Standard | 1 | 5 | |
Certificat d'université d'Executive Master en data science | Standard | 1 | 5 | |
Master 120 en sciences mathématiques, à finalité spécialisée en data science | Standard | 2 | 5 |