Encadrant des sujets suivants : Yves Lepage, bureau S3-383.
Arrière-plan du projet
Il s'agit de réaliser entièrement
un système de traduction automatique par l'exemple et par analogie
en appliquant les principes de la conception du logiciel et de la programmation objet.
En plus, il s'agit de réaliser une interface
de traduction en ligne
et
de traduction de fichiers de quelques centaines de lignes,
avec évaluation automatique de la qualité de traduction.
Le principe de traduction par l'exemple et par analogie est le suivant.
Pour traduire la phrase
Il traversait la rivière à la nage.
on recherche des phrases similaires ou pas,
dont on connaît à l'avance des traductions.
Par exemple :
De ces trois phrases particulières,
on peut dire que
Il traversait la rivière à la nage.
est à la phrase
Elle traverse la rivière à la nage.
comme
la phrase
Il chantait.
est à la phrase
Elle chante.
En transposant en anglais,
on peut dire que la phrase recherchée
doit être à la phrase
She swims across the river.
comme
la phrase
He sang.
est à la phrase
She sings.
La seule phrase correspondant à cette définition est :
He swam across the river.,
qui est bien une traduction de
Il traversait la rivière à la nage.
Travail à effectuer
Spécification complète du système à l'aide de diagrammes UML complets
Arrière-plan du projet
L'analogie entre chaînes de caractères est une opération cognitive
qui établit une relation entre quatre objets A, B, C et D,
qui se note A : B :: C : D,
et qui énonce que A est à B ce que C est à D.
Entre chaînes de symboles,
c'est-à-dire entre mots ou phrases,
elle rend compte, par exemple
de la conjugaison,
de la déclinaison,
de la dérivation flexionnelle,
voire de transformations syntaxiques,
et ce
ce quelle que soit la langue.
Cette opération est au coeur d'un système de traduction automatique par l'exemple
en développement au laboratoire GREYC.
arabe : alsama : muslimun :: arsala : mursilun
Une formalisation partielle de cette opération a été proposée.
La formalisation totale devra être implémentée lors du projet.
Travail à effectuer
En s'appuyant sur la formalisation partielle,
et les réalisations d'un projet de l'année dernière,
on réalisera une interface permettant :
L'utilisateur entrera trois ou quatre mots ou phrases
et l'interface devra afficher les matrices visualisant
les calculs nécessaires à la vérification de l'analogie
ou à la résolution de l'équation analogique.
Un café. : Un thé fort. :: Une tasse de café, s'il vous plaît. : x
=> x = Une tasse de thé fort, s'il vous plaît.
Réalisation
La réalisation sera faite en utilisant Ajax,
technologie d'applications Web interactive
mettant en jeu, pour simplifier, XHTML et JavaScript.
Les algorithmes à mettre en jeu ont déjà été définies.
Arrière-plan du projet
La linguistique comparativiste a émergé des observations sur la correspondance phonétique entre langues.
Par exemple,
/p/ en français correspond à /pf/ en allemand
(pipe : Pfeife, palefroi : Pferd, etc.),
ou
/s/ en latin correspond à /h/ en grec ancien
(semi : hemi, homolos : similis, etc.)
ou encore
/h/ à l'initiale en espagnol correspond à /f/ en français ou en italien,
etc.
Travail à effectuer
Par des techniques d'alignements automatiques de sous-séquences de mots,
on voudrait redécouvrir de telles correspondances phonétiques automatiquement,
dans un premier temps entre langues apparentées.
Réalisation
La réalisation partira de programmes déjà existants.
Il faudra aussi rechercher des données sur le Web
(liste de mots ou dictionnaires).
Le résultat du projet sera un programme interactif (interface web ou sous Macos X), et sa documentation,
permettant de lancer l'expérience
de cacul de correspondances phonétiques sur n'importe quelles données alignées.
Elle traverse la rivière à la nage. She swims across the river.
Il chantait. He sang.
Elle chante She sings.
Implémentation complète du système en Python (langage imposé).
Spécification et implémentation de l'interface de traduction.
Démonstration avec des jeux de tests de campagnes internationales d'évaluation de la traduction automatique.
2. Présentation visuelle et didactique de l'analogie entre chaînes de symboles
3. Automatisation de la linguistique comparativiste