L’explosion des données conduit à reconsidérer radicalement les méthodologie de traitement de celles-ci tant au niveau performance et efficacité d’accès qu’au niveau acquisition, préparation et structuration. Les plateformes se basant sur le paradigme MapReduce ont été mises oeuvre pour relever ces deux défis et sont en continuelle évolution pour répondre aux besoins croissants en terme d’analyse de données massives.
Ce cours permet de se familiariser avec la méthodologie de traitement de données massives en abordant deux aspects importants : i) l’interrogation et le traitement des données massives et semi-structurées et ii) l’analyse des données complexes (données multidimensionnelles et graphe). Le cours s’appuiera sur le système Apache Spark qui est largement répandu dans l’industrie ainsi que sur les briques logicielles qui en dépendent (API Dataframe, MLlib, GraphX). Une ouverture sur les sujets d’actualité (traitement de données en streaming, machine learning à large échelle) complétera le panorama du traitement des données massives.
Contenu :
- Analyse multidimensionnelle en SQL
- Map-Reduce et Spark : traitement des données semi-structurées
- Stockage à l’échelle du Web
- Optimisation des requêtes à large échelle
- Construction et analyse de Graphes à large échelle
- Ouverture : steaming, ML à large échelle, cas d’usage
Modalités d’évaluation des connaissances : examens répartis et mini-projets.
Responsable: Mohamed Amine Baazizi