Explorer l'indexation des documents d'écriture
alphabétique
par mots et par caractères
Motivation du sujet :
Le concept de
mot est à la base des moteurs de
recherche actuels :
- indexer un document consiste à le
découper en mots et enregistrer dans l'index que ces mots
sont dans ce document;
- et rechercher des documents consiste pour
l'internaute à écrire une requête sous forme de
quelques mots, et pour le moteur à lui renvoyer les URL
classées des documents contenant ces mots.
Or le
mot est bien inscrit dans l'écriture
alphabétique des langues
occidentales (sauf en finnois, et sauf les mots composés en
anglais, en allemand) ; de plus le mot est variable (nombre, cas), et
plusieurs formes correspondent à un même sens.
Par exemple, si on recherche
war,
on n'obtient pas les documents contenant
wars ou
wargame.
Or en chinois ou en japonais, les mots ne sont pas
délimités dans l'écriture, mais
reconstitués par le lecteur. Comment les
documents en chinois sont-ils indexés ? Les documents sont
indexés par des suites de n lettres (on dit n-grammes), n
étant compris entre 1 et 4 pour le chinois.
Sujet de l'an dernier :
Le sujet de l'an dernier avait un but exploratoire : comment repenser
la problématique des moteurs de recherche sans utiliser le
concept de mot, donc en indexant les documents de langues à
écriture alphabétique comme les langues à
idéogrammes telles que le chinois : par n-grammes.
Ces explorations ont montré que l'indexation par n-grammes
permet de retrouver des documents qui contiennent les mots
demandés et aussi leurs variantes (
war
demandé ->
wars et
wargame aussi obtenus), ou une
partie
des mots demandés (
wars
demandé ->
war
aussi obtenu), ce qui comble des silences de l'indexation par mots,
mais au prix de beaucoup de bruit (des documents non pertinents).
Quelques expériences de méthodes hybrides (indexation par
n-grammes
et par mots) ont
été faites ; cette piste
bénéficie des avantages des 2 méthodes et semble
prometteuse.
C'est cette piste que vous allez explorer cette année.
Objectifs du projet :
- explorer expérimentalement des
méthodes hybrides d'indexation et de recherche par mot et par n-grammes, de documents
de langues d'écriture alphabétique
- évaluer comparativement la méthode
par mot et les méthodes hybrides par mot et par n-grammes.
Protocole expérimental :
- télécharger des documents (100, puis
1000)
- les indexer par la méthode
hybride expérimentée
- faire des expérimentations de recherche et
classement de documents à partir de différents types de
requête
- faire ces expérimentations sur des langues
alphabétiques variées (français, anglais,
allemand, finnois, ...) (si on ne connait pas la langue, on a besoin
d'un locuteur pour
écrire des requêtes, et juger de la pertinence des
réponses)
- mettre en place la méthode classique
d'indexation par mots pour faire des évaluations comparatives
sur les mêmes collections de documents
- pour chaque requête, pour chaque
méthode, évaluer la pertinence des 10 premiers documents
obtenus
- comparer les résultats des différentes
méthodes
À lire :