L3 2007-2008 : projet d'informatique

Informatique Linguistique
et Recherche d'Informations


Jacques Vergne

GREYC
Université de Caen

http://www.info.unicaen.fr/~jvergne



Contact

bureau S3-391,  e-mail : Jacques.Vergne@info.unicaen.fr

(mise à jour le 9 octobre 2007)


Thème de travail du projet

Le thème de travail proposé se situe dans le domaine des moteurs de recherche :
 


Explorer l'indexation des documents d'écriture alphabétique
par mots et par caractères 


Motivation du sujet :

Le concept de mot est à la base des moteurs de recherche actuels :
  • indexer un document consiste à le découper en mots et enregistrer dans l'index que ces mots sont dans ce document;
  • et rechercher des documents consiste pour l'internaute à écrire une requête sous forme de quelques mots, et pour le moteur à lui renvoyer les URL classées des documents contenant ces mots.
Or le mot est bien inscrit dans l'écriture alphabétique des langues occidentales (sauf en finnois, et sauf les mots composés en anglais, en allemand) ; de plus le mot est variable (nombre, cas), et plusieurs formes correspondent à un même sens.
Par exemple, si on recherche war, on n'obtient pas les documents contenant wars ou wargame.

Or en chinois ou en japonais, les mots ne sont pas délimités dans l'écriture, mais reconstitués par le lecteur. Comment les documents en chinois sont-ils indexés ? Les documents sont indexés par des suites de n lettres (on dit n-grammes), n étant compris entre 1 et 4 pour le chinois.


Sujet de l'an dernier :

Le sujet de l'an dernier avait un but exploratoire : comment repenser la problématique des moteurs de recherche sans utiliser le concept de mot, donc en indexant les documents de langues à écriture alphabétique comme les langues à idéogrammes telles que le chinois : par n-grammes.
Ces explorations ont montré que l'indexation par n-grammes permet de retrouver des documents qui contiennent les mots demandés et aussi leurs variantes (war demandé -> wars et wargame aussi obtenus), ou une partie des mots demandés (wars demandé -> war aussi obtenu), ce qui comble des silences de l'indexation par mots, mais au prix de beaucoup de bruit (des documents non pertinents).
Quelques expériences de méthodes hybrides (indexation par n-grammes et par mots) ont été faites ; cette piste bénéficie des avantages des 2 méthodes et semble prometteuse.

C'est cette piste que vous allez explorer cette année.

Objectifs du projet :

  • explorer expérimentalement des méthodes hybrides d'indexation et de recherche par mot et par n-grammes, de documents de langues d'écriture alphabétique
  • évaluer comparativement la méthode par mot et les méthodes hybrides par mot et par n-grammes.

Protocole expérimental :

  • télécharger des documents (100, puis 1000)
  • les indexer par la méthode hybride expérimentée
  • faire des expérimentations de recherche et classement de documents à partir de différents types de requête
  • faire ces expérimentations sur des langues alphabétiques variées (français, anglais, allemand, finnois, ...) (si on ne connait pas la langue, on a besoin d'un locuteur pour écrire des requêtes, et juger de la pertinence des réponses)
  • mettre en place la méthode classique d'indexation par mots pour faire des évaluations comparatives sur les mêmes collections de documents
  • pour chaque requête, pour chaque méthode, évaluer la pertinence des 10 premiers documents obtenus
  • comparer les résultats des différentes méthodes

À lire :

Sergey Brin and Lawrence Page (les concepteurs de Google) (1998) The Anatomy of a Large-Scale Hypertextual Web Search Engine www-db.stanford.edu/pub/papers/google.pdf