RI

Ce module propose d’aborder le problème de la recherche d’informations dans sa généralité en introduisant les grandes problématiques, les notions de base du domaine, les principaux modèles théoriques, les spécificités de la recherche d’information sur le texte, le multimédia (images, vidéos), le web, etc. La première partie sera consacrée aux notions de base : pré-traitements, indexation et représentation des données à contenu sémantique, modèles théoriques de recherche, filtrage, classification, bouclage de pertinence, etc, qui seront déclinées sur les différents médias. On introduira ensuite des notions plus avancées concernant les problèmes liés aux très grandes masses de données, à l’utilisation des méthodes d’apprentissage automatique qui sont aujourd’hui largement employées pour les différents problèmes de RI, et des problématiques plus récentes comme l’analyse de sentiments, l’analyse de média sociaux vue sous l’angle de la RI, l’analyse des flux d’information, l’extraction d’information à partir des données hétérogènes du web, le résumé automatique. Enfin le cours présentera les moteurs de recherche et abordera successivement les problématiques d’indexation (indexes inversés, etc), de crawling (robots sur le web, problème de scalabilité), de recherche d’information pertinente (ranking) basée sur le contenu et la structure (pagerank,…), d’évaluation de moteurs. Il aborde également la conception de moteurs de recherche spécialisés pour des domaines tels que la recherche d’articles scientifiques (CiteSeer), de formules chimiques etc. Le cours sera complété par des TD et des TP portant sur la représentation et le codage des documents texte ou multi-média, le développement de systèmes interactifs pour l’interrogation de bases de contenu, la réalisation d’un moteur de recherche qui pourra être réalisé suivant les années sur différents types de media (texte, images, vidéo) en employant des technologies récentes du domaine.