Sujets de projets

Encadrant des sujets suivants : Yves Lepage, bureau S3-383.


1. Système de traduction automatique


ALEPH

Arrière-plan du projet

Il s'agit de réaliser entièrement un système de traduction automatique par l'exemple et par analogie en appliquant les principes de la conception du logiciel et de la programmation objet. En plus, il s'agit de réaliser une interface de traduction en ligne et de traduction de fichiers de quelques centaines de lignes, avec évaluation automatique de la qualité de traduction.

Le principe de traduction par l'exemple et par analogie est le suivant.

Pour traduire la phrase Il traversait la rivière à la nage. on recherche des phrases similaires ou pas, dont on connaît à l'avance des traductions. Par exemple :


Elle traverse la rivière à la nage. She swims across the river.
Il chantait. He sang.
Elle chante She sings.

De ces trois phrases particulières, on peut dire que  Il traversait la rivière à la nage.  est à la phrase  Elle traverse la rivière à la nage.  comme la phrase  Il chantait.  est à la phrase  Elle chante. 
En transposant en anglais, on peut dire que la phrase recherchée doit être à la phrase  She swims across the river.  comme la phrase  He sang.  est à la phrase  She sings. 
La seule phrase correspondant à cette définition est :  He swam across the river.,  qui est bien une traduction de  Il traversait la rivière à la nage. 

Travail à effectuer

Spécification complète du système à l'aide de diagrammes UML complets
Implémentation complète du système en Python (langage imposé).
Spécification et implémentation de l'interface de traduction.
Démonstration avec des jeux de tests de campagnes internationales d'évaluation de la traduction automatique.


2. Présentation visuelle et didactique de l'analogie entre chaînes de symboles


analogie

Arrière-plan du projet

L'analogie entre chaînes de caractères est une opération cognitive qui établit une relation entre quatre objets A, B, C et D, qui se note A : B :: C : D, et qui énonce que A est à B ce que C est à D. Entre chaînes de symboles, c'est-à-dire entre mots ou phrases, elle rend compte, par exemple de la conjugaison, de la déclinaison, de la dérivation flexionnelle, voire de transformations syntaxiques, et ce ce quelle que soit la langue. Cette opération est au coeur d'un système de traduction automatique par l'exemple en développement au laboratoire GREYC.

arabe : alsama : muslimun :: arsala : mursilun

français : je marche : marcher :: manger : je mange

Une formalisation partielle de cette opération a été proposée. La formalisation totale devra être implémentée lors du projet.

Travail à effectuer

En s'appuyant sur la formalisation partielle, et les réalisations d'un projet de l'année dernière, on réalisera une interface permettant :

L'utilisateur entrera trois ou quatre mots ou phrases et l'interface devra afficher les matrices visualisant les calculs nécessaires à la vérification de l'analogie ou à la résolution de l'équation analogique.

Un café. : Un thé fort. :: Une tasse de café, s'il vous plaît. : x

=> x = Une tasse de thé fort, s'il vous plaît.

Réalisation

La réalisation sera faite en utilisant Ajax, technologie d'applications Web interactive mettant en jeu, pour simplifier, XHTML et JavaScript. Les algorithmes à mettre en jeu ont déjà été définies.


3. Automatisation de la linguistique comparativiste


Arrière-plan du projet

La linguistique comparativiste a émergé des observations sur la correspondance phonétique entre langues. Par exemple, /p/ en français correspond à /pf/ en allemand (pipe : Pfeife, palefroi : Pferd, etc.), ou /s/ en latin correspond à /h/ en grec ancien (semi : hemi, homolos : similis, etc.) ou encore /h/ à l'initiale en espagnol correspond à /f/ en français ou en italien, etc.

Travail à effectuer

Par des techniques d'alignements automatiques de sous-séquences de mots, on voudrait redécouvrir de telles correspondances phonétiques automatiquement, dans un premier temps entre langues apparentées.

Réalisation

La réalisation partira de programmes déjà existants. Il faudra aussi rechercher des données sur le Web (liste de mots ou dictionnaires). Le résultat du projet sera un programme interactif (interface web ou sous Macos X), et sa documentation, permettant de lancer l'expérience de cacul de correspondances phonétiques sur n'importe quelles données alignées.