fdms-2016-2017

Ressources FDMS 2016-2017

  •  Important: Les travaux à rendre le seront avant le dimanche soir précédent le cours suivant, par email (ludovic[.]denoyer[@]lip6.[.]fr), avec le sujet « [FDMS]: Nom étudiant, Semaine XX »

Episode 1  – Travail Personnel

Le travail personnel cette semaine s’organise sur deux aspects:

  • Apprendre Python : Il est essentiel que vous ayez une connaissance du langage python et des librairies de traitement de données récentes et largement utilisées: numpy, pandas, sklearn principalement. Pour cela, je vous propose de suivre le tutorial suivant: https://github.com/savarin/pyconuk-introtutorial — Travail à rendre: Aucun, si vous le faites pas, vous aurez de grosses difficultés dès le prochain TP
  • Les bases de la data science et du machine learning :  Afin de vous familiariser avec les notions sous-jacentes à la data science, je vous propose le travail suivant:
    • Lecture de l’article « Statistical Modeling: The Two Cultures » de L. Breiman. Cet article donne les clefs pour comprendre les deux types d’approche classiques centrées données: la « data modelling culture » qui correspond aux approches ‘modélisation’ historiques (et sur lesquelles sont par exemple basés les modèles de type météo), et l’approche ici appelée « Algorithmic Modeling Culture » qui correspond grosso modo à l’approche machine learning et qui tend à prendre une place de plus importante dans le traitement de données. Travail à rendre: Vous ferez un résumé (1 à 2 pages) des principes, différences, avantages et inconvénients des deux types d’approches. Vous donnerez des exemples d’applications pour lesquelles vous pensez que l’une ou l’autre des approches et la plus appropriée.
    • Lecture de l’article « Model Selection in Data Analysis Competitions » qui donne des « recettes de cuisine » classiques utilisées dans le cadre des compétitions de data science. Travail à rendre: Vous résumerez les 5 points principaux (3.1 à 3.5) en une ou deux phrases

Episode 2 – Sélection de modèles

Episode 3 – Sélection de caractéristiques

Episode 4 – Combinaisons de modèlse

  • Cours = fdms_2015_2016_cours3
  • TME = Implémentation de Bagging et AdaBoost sur des jeux de données binaires – comparaison des algorithmes
  • Challenge = Exploration des données
    • http://132.227.201.***/phpmyadmin

 Episode 5 – Visualisation

 Challenge Tennis: ICI

Episode 6 : Recommendation

  • TP4 : Implémentation des modèles de CF avec descente de gradient stochastique
    • Modèle classique L2
    • Modèle avec biais utilisateur et items
    • Modèle avec Biais temporel
    • Evaluation des modèles sur la base MovieLens
  • Movie Lens : http://files.grouplens.org/datasets/movielens/ml-100k.zip (fichier u.data)
def loadMovieLens(path='/data/movielens'):

  # Get movie titles
  movies={}
  for line in open(path+'/u.item'):
    (id,title)=line.split('|')[0:2]
    movies[id]=title

  # Load data
  prefs={}
  for line in open(path+'/u.data'):
    (user,movieid,rating,ts)=line.split('\t')
    prefs.setdefault(user,{})
    prefs[user][movies[movieid]]=float(rating)
  return prefs

  • Passage à MovieLens 1M

Episode 7 : Dataiku

Pour ceux qui travaillent sur leur ordinateur portable, veuillez installer dataiku DSS pour la prochaine séance.

 

 

Mini-stage : laissez parler votre rigueur et votre imagination !

Méthodologie

Cas pratique. Thème : « Time series prediction and forcasting »

Travail à réaliser en binôme.

Cours 1 : réaliser l’état de l’art (lecture, synthèse, …- voir cours) à partir de la biblio suivante :

Cours 2 : Les séries temporelles peuvent être utilisées pour de nombreuses applications et domaines de recherche :

  •   détection d’évènement sur Twitter
  • Prédiction de trajets
  • Prédiction spatio-temporelle de données climatiques
  • Détection de spams
  • Identification des processus de diffusion de l’information
  • Détections des pannes

Travail à faire

  • Choisir une problématique (ou en proposer une)
  • Développer une méthode ou améliorer un algorithme pour résoudre cette problématique
  • Proposer un protocole d’évaluation de la méthode/l’ algorithme proposé(e)

Pour la semaine prochaine (23/01/17) : présentation de 10 minutes par binôme de type « présentation d’une contribution à une conférence »

Bien introduire avec motivation/justification:

  • Le contexte et la problématique
  • L’état de l’art
  • Le modèle proposé
  • Le protocole expérimental
  • Le types de résultats attendus (exemples de courbes, tableaux, etc…)
  • Les conclusions et perspectives

Seront évalués :

  • La qualité de la présentation
  • L’effort de synthèse de l’état de l’art
  • Le positionnement par rapport à l’état de l’art
  • Les justifications liées à la contribution
  • La cohérence de l’expérimentation avec le contexte/modèle proposé
  • Votre rigueur et votre imagination/originalité !