FAQ pour les candidats

FAQ pour les candidatures au parcours DAC du Master d’Informatique

Avertissement : les réponses ci-dessous sont données de manière informelle à titre indicatif pour vous aider dans votre candidature. En aucun cas, elles n’ont de valeur officielle.

E-candidat et date limite

✋ Jusqu’à quelle date puis-je déposer mon dossier ?

 ➥ il faut candidater via le site e-candidat sur le site de Sorbonne Université à partir d’avril ou mai et jusqu’à fin juin.

✋ je ne trouve pas le master DAC sur e-candidat.

 ➥le master DAC est en fait le Master d’Informatique, parcours DAC.

Droits d’inscription

✋ Je souhaite connaître le montant des droits d’inscription au titre de l’année universitaire 2021-2022 pour les étudiants étrangers hors communauté européenne.

➥ pour cette année encore, nous devrions éviter la hausse des frais. Le coût sera de l’ordre de 300 EUR/an avec la sécurité sociale.

Prérequis

✋ Je souhaiterais savoir si le parcours DAC est accessible à des étudiants ayant suivi une licence Mathématiques et Informatique Appliquées aux Sciences Humaines et Sociales (MIASHS). En effet, les enseignements d’informatique dispensés dans le cadre de cette licence sont relativement modestes, notamment par comparaison avec une licence d’informatique.

➥ dans l’absolu, c’est possible. Il faut tout de même démontrer que vous avez les pré-requis en mathématiques et en informatique (programmation, BD, algorithmique). Ça dépend beaucoup de vos notes & classements.

✋  Je suis actuellement en L3 mathématiques et je voulais savoir s’il y avait une chance d’être pris si on ne venait pas de licence info, maths/info.

➥ nous prenons chaque année entre 1 et 3 profils plus mathématiques. Il faut néanmoins démontrer que vous avez les pré-requis en programmation, BD et algorithmique.

Lettre de recommandation ?

✋ Je suis actuellement étudiant en L3 à SU. Est-ce que je dois fournir des lettres de recommandation pour la candidature? 

➥ dans l’absolu, les lettres de recommandation sont très importantes pour toutes les candidatures… En interne cependant, nous avons accès à vos notes et nous connaissons la valeur des UE enseignées à SU.

Reprise d’étude

✋ Après 10 ans d’expérience professionnelle, j’envisage une reprise d’études en data science et « big data »

➥Les reprises d’études sont très intéressantes malheureusement, nous n’avons que très peu de place en DAC par rapport aux nombre de candidatures… Il peut aussi être utile de regarder du côté de la formation continue. Les mêmes enseignants sont impliqués dans la formation :   https://formationmachinelearning.lip6.fr

Questions about courses language

✋ Do you offer English taught programs in DAC ?

➥ unfortunately, we do not offer English taught courses: all courses are taught in French, even if the teachers speak English.

Ressources partie Apprentissage Symbolique du module ASWS

Ressources partie Apprentissage Symbolique du module ASWS

Cours 1

TD 1

  • TME1: logique et Prolog

Logiciels

  • SWI Prolog (http://www.swi-prolog.org/)
  • logiciel Protégé (http://protege.stanford.edu/)
  • logiciel Orange (http://orange.biolab.si/)

Bibliographie

Cours 2

TD 2

Cours 3

TD3

Cours 4

  • Inversion de la résolution (cours)
  • CBR et analogie (cours)
  • Séquences (cours 1, cours 2) –
  • Humanités numériques: intertextualité, détection d’homologies et de plagiat (cours)

TD4

Cours 5

TD5

  • Algorithmes génétiques (cours)

Cours 6

TD6

Cours 7

TD7

Semaine 12 : exposés du 21/01/2019

Pour le 21/01/2019

Travail à faire par binôme.

Choisir un papier dans la liste ci-dessous. Trouver un autre papier sur une thématique proche et qui ne soit pas dans la liste.

Préparer une présentation de 10 mn par binôme et un rapport de 4 pages max décrivant la problématique étudiée et  le travail réalisé dans ces papiers.

Tout le monde assiste à toute la journée de présentation, dans la mesure du possible.

Modèles génératifs

Almahairi, A., Rajeswar, S., Sordoni, A., Bachman, P. and Courville, A. 2018. Augmented CycleGAN: Learning Many-to-Many Mappings from Unpaired Data. ICML (2018), PMLR 80:195-204.

Dinh, L., Sohm-Dickstein, J. and Bengio, S. 2017. Density Estimation using Real NVP. Iclr (2017).

Grathwohl, W., Chen, R.T.Q., Bettencourt, J., Sutskever, I. and Duvenaud, D. 2019. FFJORD: Free-Form Continuous Dynamics for Scalable Reversible Generative Models. ICLR (2019).

Kingma, D.P. and Dhariwal, P. 2018. Glow : Generative Flow with Invertible 1 ⇥ 1 Convolutions. NIPS (2018).

Pajot A., de Bezenac E., Gallinari P.,  Unsupervised Adversarial Image Reconstruction, ICLR 2019.

Systèmes dynamiques

Chen, T.Q., Rubanova, Y., Bettencourt, J. and Duvenaud, D. 1987. Neural Ordinary Differential Equations. (1987), 1–19. – best paper Nips 2018

Videos

Denton, E. and Birodkar, V. 2017. Unsupervised Learning of Disentangled Representations from Video. NIPS (2017), 4414–4423.

Denton, E. and Fergus, R. 2018. Stochastic Video Generation with a Learned Prior. ICML (2018), 1182–1191.

Lee, A.X., Zhang, R., Ebert, F., Abbeel, P., Finn, C. and Levine, S. 2018. Stochastic Variational Video Prediction. ICLR (2018).

Text generation and generative models

Subramanian, S., Sai, R., Sordoni, A., Trischler, A., Courville, A. and Pal, C. 2018. Towards Text Generation with Adversarially Learned Neural Outlines. Neural Information Processing Systems (NIPS). Nips (2018), 1–13.

Wang, H., Qin, Z. and Wan, T. 2018. Text generation based on generative adversarial nets with latent variables. (2018). ArXiv 1712.00170

Hu, Z., Yang, Z., Liang, X., Salakhutdinov, R. and Xing, E.P. 2017. Toward Controlled Generation of Text. ICML (2017), PMLR 70:1587-1596.

Xu, J., Ren, X., Lin, J. and Sun, X. 2018. DP-GAN: Diversity-Promoting Generative Adversarial Network for Generating Informative and Diversified Text. EMNLP (2018).

Guan, J., Li, R., Yu, S. and Zhang, X. 2018. Generation of Synthetic Electronic Medical Record Text. 1812.02793v1 (2018)

Learning text representations

Peters, M.E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K. and Zettlemoyer, L. 2018. Deep contextualized word representations. NAACL (2018), 2227–2237.

Devlin, J., Chang, M.-W., Lee, K. and Toutanova, K. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. http://arxiv.org/abs/1810.04805 (2018).

Dialogue

Serban, I.V., Sordoni, A., Charlin, L., Pineau, J., Courville, A. and Bengio, Y. 2017. A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues. AAAI (2017), 3295–3301.

Ressources partie Apprentissage Symbolique du module ASWS

Cours 1

TD 1

Logiciels

  • logiciel Protégé (http://protege.stanford.edu/)
  • logiciel Orange (http://orange.biolab.si/)

Bibliographie

Logiques de description

  • Description Logics, Franz Baader, Ian Horrocks, Ulrike Sattler, in « Handbook of KnowlefgeRepresentation », editeurs Frank Van Harmelen, Vladimir Lifschitz, Bruce Porter, chapitre 3, pp. 135-179
  • The Description LogicHandbookTheoryImplementation and Applications, F. Baader, E. Franconi, B. Hollunder, B. Neble, H.-J. Profitlich, Cambridge UniversityPress, 2003

FDMS – Challenge Tennis

Voici les informations pour le challenge de prédiction des matches de Tennis de l’UE FDMS

Accès aux données

La base de données est accessible à travers mySQL. Les informations d’accès aux données sont fournies sur Piazza (pour des raisons de sécurité)

Notés que, depuis phpmyadmin, vous pouvez exporter les tables en fichiers CSV

Structure de la base de données

La base de données est structurées en plusieurs tables décrites ici

games_atp

C’est la base d’entrainement. Chaque ligne correspond à un match.

  • ID1_G : L’identifiant du joueur qui a gagné le match
  • ID2_G : L’identifiant du joueur qui a perdu le match
  • ID_T_G : L’identifiant du tournoi (voir tours_atp)
  • ID_R_G : L’identfiant du round dans le tournoi (voir rounds)
  • RESULT_G ; Le résultat du match
  • DATE_G:  La date du match

games_atp_public

C’est la table des matches pour lesquels vous devez prédire le résultat. Les résultats du leaderboard seront calculés sur une partie de ces matches. A la fin du challenge, les résultats sur l’ensemble des matches seront publiés.

facts_atp

  • ID1 : L’identifiant du joueur qui a gagné le match
  • ID2 : L’identifiant du joueur qui a perdu le match
  • ID_T : L’identifiant du tournoi (voir tours_atp)
  • ID_R : L’identfiant du extit{round} dans le tournoi (voir rounds)
  • FS_1 : Nombre de premiers services réussis (joueur 1)
  • FS_OF1 : Nombre de premiers services (joueur 1)
  • ACES_1 : Aces (joueur 1)
  • DF_1 : Double Fautes (joueur 1)
  • UE_1 : textit{Unforced errors} (erreurs directes ?)
  • W1S_1: Nombre de points gagnés sur premier service
  • W1SOF_1: Nombre de points joués sur premier service
  • W2S_1: Nombre de points gagnés sur second service
  • W2SOF_1: Nombre de points joués sur second service
  • WIS_1 : Nombre de points gagnés en tout
  • BP_1 : Nombre de balles de break gagnées
  • BPOF_1 : Nombre de balles de break obtenues
  • RPW_1 : Nombre de points gagnés
  • RPW_OF1 : Nombre de points jouées
  • .._2 : Les mêmes pour le joueur 2

 players_atp

La mapping entre les identifiants et les noms des joueurs. Contient aussi quelques informations additionnelles.

ratings_atp

Contient le classement et le nombre de points ATP des jours à différentes dates

rounds

Permet de matcher un identifiant de round à un type de round

courts

Permet d’associer une type court à sa surface réelle

tours_atp

Description des différents tournois. NB: la date du tournoi peut être utilisée comme date de match si un matche n’est pas associè à une date

 Soumission sur le leaderboard

Le site du leaderboard se trouve à l’adresse suivante: (voir PIAZZA)

Le fichier de soumission est CSV (valeurs séparées par des ‘,’) de 5 colonnes:

  • ID Joueur 1
  • ID Joueur 2
  • ID Tournoi
  • ID Round
  • Résultat prédit (1 si joueur gagne, 2 si joueur 2)

Pour soumettre un fichier sur le site, voici la commande:

curl –form file=@fichier.csv  –form « team_name=xxxx » –form « description=xxxx » http://xxx/submit
Si tout se passe bien, il devrait apparaitre ensuite sur le leaderboard.