TAL

Le traitement automatique des langues (TAL) vise l’élaboration d’outils et de méthodes capables d’appréhender leur sémantique afin d’en faciliter la prise de connaissance et plus généralement l’exploitation. Selon l’usage que l’on veut en faire, les niveaux d’interprétation peuvent être différents, allant de l’identification de termes pour extraire des mots-clés à des résumés, des traductions ou de la recherche d’informations précises en réponse à des questions.

L’objectif de ce module est de présenter les problématiques posées pour le TAL et les principaux modèles pour analyser, synthétiser, exploiter et produire des documents. Il aborde notamment :

  • Fondements du TAL : Analyse morphologique et terminologique, Analyse syntaxiques, Ressources et analyse sémantiques, Analyse du discours.
  • Applications : Recherche d’informations précises, résumé, fouille de texte, détection de sentiments, extraction de thématiques, attribution d’auteurs, etc.

Planning du cours de TAL

Année 2018

  • 29/1
    • Cours d’introduction au TAL
  • 01/2
    • TP initiation aux outils de TAL
    • Analyse d’article
  • 05/2
    • Cours Méthodologie de la recherche
  • 08/2
    • Recherche bibliographique
    • Analyse d’article
  • 12/2
    • Cours HMM-CRF: étiquetage dans les séquences
  • 15/2
    • TP sur l’usage des modèles séquentiels en TAL (analyse détaillée du fonctionnement des modèles)
  • 19/2
    • Présentation des synthèses bibliographiques par les élèves
  • 22/2
    • Spécifications de l’application
  • 26/2
    • Présentation des synthèses bibliographiques par les élèves
  • 01/3
    • Développement de l’application
  • 05/3
    • Cours: Sémantique distributionnelle, LSA
  • 08/3
    • TP: LSA/PLSA sur les données textuelles, clustering thématique et analyse des modèles
  • 12/3
    • Cours: classification de documents, analyse de sentiments
  • 15/3
    • TP: classification de documents sur des corpus réels, impact des pré-traitements, étude des phénomènes de sur-apprentissage
  • 19/3
    • Cours évaluation en TAL + présentation par les élèves
  • 05/4
    • Développement de l’application
  • 09/4
    • Cours: représentations latentes des documents, méthodes neuronales (word2vec…)
  • 12/4
    • application de word2vec et paragraphe2vec sur des corpus de documents
  • 03/5
    • Développement de l’application
  • 14/5 – 3h
    • Soutenances

Rendus

Uniquement en pdf

    • 19 février : Fiches de lecture + présentation
    • 22 février 18 h : spécifications de l’application
    • 14 mars : synthèse bibliographique
    • 5 avril : retours sur la synthèse
    • 14 mai : soutenances : présentation de la synthèse, de l’application, démonstration
    • Contenu de la soutenance : 15 mn par groupe + 5mn de questions

        Synthèse : 7 mn

      • présentation du sujet : le thème, son intérêt pour des applications (1 slide)
      • définition des problèmes à résoudre (1 slide)
      • présentation des méthodes (3-4 slides)
      • conclusion (1 slide)
        Application : 7 mn

      • sujet (1 slide) : but de l’application
      • problème à résoudre / solution apportée (1 – 2 slide)
      • architecture de l’application (1 – 2 slide)
      • 2 transp pour les résultats : résultats obtenus + analyse
      • démo: 3mn

      Rendre le pdf de la présentation dans le dossier final

      Contenu dossier final

      • rapport sur l’application (5 à 10 pages): les points de la soutenance développés
      • synthèse corrigée (5 à 10 pages),
      • code de l’application,
      • pdf de la soutenance