REDS 2023-2024

Organisation

  • Première partie: méthodologie projet (Olivier Schwander)
  • Deuxième partie: méthodologie recherche (Laure Soulier)
  • Troisième partie: méthodologie production (Christophe Bouder)

Évaluation

  • Projet première partie (25%)
  • Soutenance deuxième partie (25%)
  • Examen écrit (50%)

Partie 1 – Méthodologie projet

Séance 1 – Méthodologie du traitement de données

Méthodologie

Séance 2 – Protocole expérimental

Protocole

Séance 3 – Sélection de variables et présentation

Variables

Présentation

Séance 4 – Supervision et gros modèles

Supervision et gros modèles

Projet

Important: Les travaux à rendre doivent être déposés en suivant le lien indiqué (en précisant bien le nom du groupe dans le nom du fichier, sinon le travail sera perdu). Attention, le lien de rendu change à chaque fois, bien le respecter sinon le travail sera perdu aussi. Aucun rendu par email ne sera accepté.

Le projet est à faire en groupe de 5 ou 6.

Les rapports doivent être des fichiers pdf exclusivement: ils ne doivent pas contenir de code, et les notebooks ne sont pas acceptés.

Description du projet

Rendu 1

Travail à rendre
Rapport sur l’extraction des données et leur analyse
Date limite
25 octobre 2023
Lien pour le rendu
https://nuage.isir.upmc.fr/index.php/s/22D3rD9GyKADPLe

Rendu 2

Travail à rendre
Rapport sur des résultats et leur analyse
Date limite
23 novembre 2023
Lien pour le rendu
https://nuage.isir.upmc.fr/index.php/s/g9236djF2Zbeeg6

Rendu final

Travail à rendre
Rapport définitif avec la mise en production
Date limite
fin janvier
Lien pour le rendu
à venir

Partie 2 – Méthodologie recherche

Partie 3 – Méthodologie production

Résumé

Ressources partie Apprentissage Symbolique du module ASWS

Ressources partie Apprentissage Symbolique du module ASWS

Cours 1

TD 1

  • TME1: logique et Prolog

Logiciels

  • SWI Prolog (http://www.swi-prolog.org/)
  • logiciel Protégé (http://protege.stanford.edu/)
  • logiciel Orange (http://orange.biolab.si/)

Bibliographie

Cours 2

TD 2

Cours 3

TD3

Cours 4

  • Inversion de la résolution (cours)
  • CBR et analogie (cours)
  • Séquences (cours 1, cours 2) –
  • Humanités numériques: intertextualité, détection d’homologies et de plagiat (cours)

TD4

Cours 5

TD5

  • Algorithmes génétiques (cours)

Cours 6

TD6

Cours 7

TD7

Semaine 12 : exposés du 21/01/2019

Pour le 21/01/2019

Travail à faire par binôme.

Choisir un papier dans la liste ci-dessous. Trouver un autre papier sur une thématique proche et qui ne soit pas dans la liste.

Préparer une présentation de 10 mn par binôme et un rapport de 4 pages max décrivant la problématique étudiée et  le travail réalisé dans ces papiers.

Tout le monde assiste à toute la journée de présentation, dans la mesure du possible.

Modèles génératifs

Almahairi, A., Rajeswar, S., Sordoni, A., Bachman, P. and Courville, A. 2018. Augmented CycleGAN: Learning Many-to-Many Mappings from Unpaired Data. ICML (2018), PMLR 80:195-204.

Dinh, L., Sohm-Dickstein, J. and Bengio, S. 2017. Density Estimation using Real NVP. Iclr (2017).

Grathwohl, W., Chen, R.T.Q., Bettencourt, J., Sutskever, I. and Duvenaud, D. 2019. FFJORD: Free-Form Continuous Dynamics for Scalable Reversible Generative Models. ICLR (2019).

Kingma, D.P. and Dhariwal, P. 2018. Glow : Generative Flow with Invertible 1 ⇥ 1 Convolutions. NIPS (2018).

Pajot A., de Bezenac E., Gallinari P.,  Unsupervised Adversarial Image Reconstruction, ICLR 2019.

Systèmes dynamiques

Chen, T.Q., Rubanova, Y., Bettencourt, J. and Duvenaud, D. 1987. Neural Ordinary Differential Equations. (1987), 1–19. – best paper Nips 2018

Videos

Denton, E. and Birodkar, V. 2017. Unsupervised Learning of Disentangled Representations from Video. NIPS (2017), 4414–4423.

Denton, E. and Fergus, R. 2018. Stochastic Video Generation with a Learned Prior. ICML (2018), 1182–1191.

Lee, A.X., Zhang, R., Ebert, F., Abbeel, P., Finn, C. and Levine, S. 2018. Stochastic Variational Video Prediction. ICLR (2018).

Text generation and generative models

Subramanian, S., Sai, R., Sordoni, A., Trischler, A., Courville, A. and Pal, C. 2018. Towards Text Generation with Adversarially Learned Neural Outlines. Neural Information Processing Systems (NIPS). Nips (2018), 1–13.

Wang, H., Qin, Z. and Wan, T. 2018. Text generation based on generative adversarial nets with latent variables. (2018). ArXiv 1712.00170

Hu, Z., Yang, Z., Liang, X., Salakhutdinov, R. and Xing, E.P. 2017. Toward Controlled Generation of Text. ICML (2017), PMLR 70:1587-1596.

Xu, J., Ren, X., Lin, J. and Sun, X. 2018. DP-GAN: Diversity-Promoting Generative Adversarial Network for Generating Informative and Diversified Text. EMNLP (2018).

Guan, J., Li, R., Yu, S. and Zhang, X. 2018. Generation of Synthetic Electronic Medical Record Text. 1812.02793v1 (2018)

Learning text representations

Peters, M.E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K. and Zettlemoyer, L. 2018. Deep contextualized word representations. NAACL (2018), 2227–2237.

Devlin, J., Chang, M.-W., Lee, K. and Toutanova, K. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. http://arxiv.org/abs/1810.04805 (2018).

Dialogue

Serban, I.V., Sordoni, A., Charlin, L., Pineau, J., Courville, A. and Bengio, Y. 2017. A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues. AAAI (2017), 3295–3301.

Ressources partie Apprentissage Symbolique du module ASWS

Cours 1

TD 1

Logiciels

  • logiciel Protégé (http://protege.stanford.edu/)
  • logiciel Orange (http://orange.biolab.si/)

Bibliographie

Logiques de description

  • Description Logics, Franz Baader, Ian Horrocks, Ulrike Sattler, in « Handbook of KnowlefgeRepresentation », editeurs Frank Van Harmelen, Vladimir Lifschitz, Bruce Porter, chapitre 3, pp. 135-179
  • The Description LogicHandbookTheoryImplementation and Applications, F. Baader, E. Franconi, B. Hollunder, B. Neble, H.-J. Profitlich, Cambridge UniversityPress, 2003

FDMS – Challenge Tennis

Voici les informations pour le challenge de prédiction des matches de Tennis de l’UE FDMS

Accès aux données

La base de données est accessible à travers mySQL. Les informations d’accès aux données sont fournies sur Piazza (pour des raisons de sécurité)

Notés que, depuis phpmyadmin, vous pouvez exporter les tables en fichiers CSV

Structure de la base de données

La base de données est structurées en plusieurs tables décrites ici

games_atp

C’est la base d’entrainement. Chaque ligne correspond à un match.

  • ID1_G : L’identifiant du joueur qui a gagné le match
  • ID2_G : L’identifiant du joueur qui a perdu le match
  • ID_T_G : L’identifiant du tournoi (voir tours_atp)
  • ID_R_G : L’identfiant du round dans le tournoi (voir rounds)
  • RESULT_G ; Le résultat du match
  • DATE_G:  La date du match

games_atp_public

C’est la table des matches pour lesquels vous devez prédire le résultat. Les résultats du leaderboard seront calculés sur une partie de ces matches. A la fin du challenge, les résultats sur l’ensemble des matches seront publiés.

facts_atp

  • ID1 : L’identifiant du joueur qui a gagné le match
  • ID2 : L’identifiant du joueur qui a perdu le match
  • ID_T : L’identifiant du tournoi (voir tours_atp)
  • ID_R : L’identfiant du extit{round} dans le tournoi (voir rounds)
  • FS_1 : Nombre de premiers services réussis (joueur 1)
  • FS_OF1 : Nombre de premiers services (joueur 1)
  • ACES_1 : Aces (joueur 1)
  • DF_1 : Double Fautes (joueur 1)
  • UE_1 : textit{Unforced errors} (erreurs directes ?)
  • W1S_1: Nombre de points gagnés sur premier service
  • W1SOF_1: Nombre de points joués sur premier service
  • W2S_1: Nombre de points gagnés sur second service
  • W2SOF_1: Nombre de points joués sur second service
  • WIS_1 : Nombre de points gagnés en tout
  • BP_1 : Nombre de balles de break gagnées
  • BPOF_1 : Nombre de balles de break obtenues
  • RPW_1 : Nombre de points gagnés
  • RPW_OF1 : Nombre de points jouées
  • .._2 : Les mêmes pour le joueur 2

 players_atp

La mapping entre les identifiants et les noms des joueurs. Contient aussi quelques informations additionnelles.

ratings_atp

Contient le classement et le nombre de points ATP des jours à différentes dates

rounds

Permet de matcher un identifiant de round à un type de round

courts

Permet d’associer une type court à sa surface réelle

tours_atp

Description des différents tournois. NB: la date du tournoi peut être utilisée comme date de match si un matche n’est pas associè à une date

 Soumission sur le leaderboard

Le site du leaderboard se trouve à l’adresse suivante: (voir PIAZZA)

Le fichier de soumission est CSV (valeurs séparées par des ‘,’) de 5 colonnes:

  • ID Joueur 1
  • ID Joueur 2
  • ID Tournoi
  • ID Round
  • Résultat prédit (1 si joueur gagne, 2 si joueur 2)

Pour soumettre un fichier sur le site, voici la commande:

curl –form file=@fichier.csv  –form « team_name=xxxx » –form « description=xxxx » http://xxx/submit
Si tout se passe bien, il devrait apparaitre ensuite sur le leaderboard.

 

 

Soumission Stage

Soumettre un sujet de stage

Envoyer le sujet de stage à toute l’équipe responsable du master sciences-master-info-dac@sorbonne-universite.fr
Ou contacter les responsables pédagogiques : vincent.guigue@lip6.fr et hubert.naacke@lip6.fr

Stages de M1 / stages de M2

Les étudiants de M2 ont un stage obligatoire de 5 à 6 mois.
Les étudiants de M1 ont un stage fortement recommandé de 2 à 3 mois

Calendrier

Les étudiants de M2 sont en stage entre mi-février à septembre pour une période de 5 à 6 mois. Nous publions les sujets au fil de l’eau sur une page privée, mais l’idéal est de soumettre les sujets entre octobre et novembre, les étudiants cherchant activement à partir de début décembre.

Les étudiants de M1 sont en stage entre juin et septembre pour une période de 2 à 3 mois.

Contrats d’accompagnement

Dans le cadre des stages de M2, nous avons mis en place une procédure permettant de définir un contrat d’accompagnement sur ces stages. Le principe consiste à mettre à disposition durant plusieurs jours, en plus du stagiaire, un enseignant/chercheur compétent permettant de prodiguer des conseils directement à l’entreprise sur la problématique visée par le stage. Ces contrats d’accompagnements s’adressent donc aux entreprises désireuses d’explorer de nouveaux outils, et qui ne possèdent pas, à l’heure du stage, les compétences internes nécessaires pour les mettre en place.