BDLE – Master Data Science Paris – DAC

L’explosion des données conduit à reconsidérer radicalement les méthodologie de traitement de celles-ci tant au niveau performance et efficacité d’accès qu’au niveau acquisition, préparation et structuration. Les plateformes se basant sur le paradigme MapReduce ont été mises oeuvre pour relever ces deux défis et sont en continuelle évolution pour répondre aux besoins croissants en terme d’analyse de données massives.

Ce cours permet de se familiariser avec la méthodologie de traitement de données massives en abordant deux aspects importants : i) l’interrogation et le traitement des données massives et semi-structurées et ii) l’analyse des données complexes (données multidimensionnelles et graphe). Le cours s’appuiera sur le système Apache Spark qui est largement répandu dans l’industrie ainsi que sur les briques logicielles qui en dépendent (API Dataframe, MLlib, GraphX). Une ouverture sur les sujets d’actualité (traitement de données en streaming, machine learning à large échelle) complétera le panorama du traitement des données massives.

Contenu :

Analyse multidimensionnelle en SQL
Map-Reduce et Spark : traitement des données semi-structurées
Stockage à l’échelle du Web
Optimisation des requêtes à large échelle
Construction et analyse de Graphes à large échelle
Ouverture : steaming, ML à large échelle, cas d’usage

Modalités d’évaluation des connaissances : examens répartis et mini-projets.

Ressources permanentes

Responsable: Mohamed Amine Baazizi