accueil
 
 

vous êtes ici : Département d'informatique >> MASTER PROFESSIONNEL M2-RADIS >> PROMO 2007-2008 >> Projets

 
 
jolis rectangles bleus

Master d'Informatique M2-RADIS
Projets 2007-2008 - Soutenances Anglais

département d'informatique UCBN


Projets MASTER PRO M2 RADI 2007-2008

Liste des projets 2007-2008.

Sommaire

Étudiants
Sujets
Jérôme Le Moulec ( web , email )
2. Étude et proposition d'implémentation de discovery services ( encadrants : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr) et Dominique Le Hello, Orange Labs Caen (dominique.lehello@orange-ftgroup.com))
Anon Yapi ( web , email )
3. Utilisation d'EPCglobal avec un téléphone mobile ( encadrants : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr) et Dominique Le Hello, Orange Labs Caen (dominique.lehello@orange-ftgroup.com))
Alexandre Crochet ( web , email )
4. Mise a jour du registre au sein du projet RepXML au sein d'une plateforme ebXML ( encadrants : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr) et Ivan Bedini, Orange Labs Caen (ivan.bedini@orange-ftgroup.com))
Yvan Coquelin ( web , email )
5. Outils de validation de Core Components ( encadrants : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr) et Ivan Bedini, Orange Labs Caen (ivan.bedini@orange-ftgroup.com))
Stéphane Henry ( web , email )
6. Calibration de numérisation d'imagerie médicale par un appareil photo numérique ( encadrants : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr) et Fabien Leclercq, EVAMED (leclercqfabien@wanadoo.fr))
libre
7. Schémas interactifs en imagerie médicale ( encadrants : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr) et Fabien Leclercq, EVAMED (leclercqfabien@wanadoo.fr))
libre
8. Problème du voyageur de commerce sur le web ( encadrant : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr))
Sébastien Picot ( web , email )
9. Mise en place d'outil de surveillance et de gestion pour le CERTIC ( encadrant : Arnaud Daret, CERTIC, Université de Caen (arnaud.daret@info.unicaen.fr))
libre
10. Dialecto ( encadrant : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr))
libre
11. Amélioration de Zsync ( encadrants : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr) et Julien Clément, GREYC, CNRS UMR 6072 (julien.clement@info.unicaen.fr))
Franck Malherbe ( web , email )
12. Éditeur de workflow dans une plateforme de dématérialisation ( encadrant : Arnaud Daret, CERTIC, Université de Caen (arnaud.daret@info.unicaen.fr))
libre
13. « Carte » d'un document ( encadrants : Nadine Lucas, GREYC, CNRS UMR 6072 (Nadine.Lucas@info.unicaen.fr) et Emmanuel Giguet, GREYC, UMR 6072 (Emmanuel.Giguet@info.unicaen.fr))
Abdelkader Benchikh ( web , email )
libre
17. Extraction de données séquentielles pour le jeu vidéo ( encadrant : François Rioult, GREYC, CNRS UMR 6072 (frioult@info.unicaen.fr))
libre
19. Recommandation pour la publication scientifique ( encadrant : François Rioult, GREYC, CNRS UMR 6072 (frioult@info.unicaen.fr))
libre
20. Analyse des forums de cameravideo.net ( encadrant : François Rioult, GREYC, CNRS UMR 6072 (frioult@info.unicaen.fr))
libre
21. Système de traduction automatique ( encadrant : Yves Lepage , GREYC, CNRS UMR 6072 (Yves.Lepage@info.unicaen.fr))
libre
24. Construction d'une interface visuelle en openLASZLO ( encadrant : Abderrahim Elmoataz, LUSAC, EA 2607 (Abder.Elmoataz@greyc.ensicaen.fr))
Wassim Elchall ( web , email )
25. Plate forme pour l'apprentissage multimodal de l'écriture ( encadrant : Youssef Chahir , GREYC, CNRS UMR 6072 (chahir@info.unicaen.fr))
libre
26. Tatouage de textes ( encadrants : Jacques Madelaine, GREYC, CNRS UMR 6072 (jacques.madelaine@info.unicaen.fr) et Yves Lepage , GREYC, CNRS UMR 6072 (Yves.Lepage@info.unicaen.fr))
Changlin Yuan ( web , email )
27. Tatouage de coloriage de graphes ( encadrants : Jean-Marie Le Bars, GREYC, CNRS UMR 6072 (lebars@info.unicaen.fr) et Jacques Madelaine, GREYC, CNRS UMR 6072 (jacques.madelaine@info.unicaen.fr))
libre
Arnaud Endamne Ango ( web , email )
29. Interaction langagière Homme-Robot ( encadrant : Yves Lepage , GREYC, CNRS UMR 6072 (Yves.Lepage@info.unicaen.fr))
Olivier Gueudelot ( web , email )
30. Interaction Homme-Robot et vision robotique ( encadrant : Abdel-Illah Mouaddib, GREYC, CNRS UMR 6072 (mouaddib@info.unicaen.fr))
Aurélien Passion ( web , email )
31. Mise en œuvre d'une communication Wifi robot-robot et robot-machine ( encadrant : Abdel-Illah Mouaddib, GREYC, CNRS UMR 6072 (mouaddib@info.unicaen.fr))
Julien Pierre De La Briere ( web , email )
32. Annotation sémantique des collections de photos personnelles ( encadrants : Hervé Le Crosnier, GREYC, CNRS UMR 6072 (Herve.Le_Crosnier@info.unicaen.fr) et Nadia Zérida , GREYC, CNRS UMR 6072 (nadia.zerida@info.unicaen.fr))
Sébastien Daireaux ( web , email )
33. Compression avec arbres de contexte ( encadrant : Julien Clément, GREYC, CNRS UMR 6072 (julien.clement@info.unicaen.fr))
libre
34. Configuration des (auto)firewalls ( encadrant : Jean Saquet, GREYC, CNRS UMR 6072 (Jean.Saquet@info.unicaen.fr))
Georges Lhuissier ( web , email )
35. Accès VPN ( encadrant : Jean Saquet, GREYC, CNRS UMR 6072 (Jean.Saquet@info.unicaen.fr))
libre
36. Fusion de données et Catégorisation de données comportementales ( encadrant : Youssef Chahir , GREYC, CNRS UMR 6072 (chahir@info.unicaen.fr))
libre
37. Segmentation semi-automatique d'images 3D ( encadrant : Youssef Chahir , GREYC, CNRS UMR 6072 (chahir@info.unicaen.fr))
Mohamed-Salah Bourbia ( web , email )
38. Catégorisation de documents web ( encadrant : Youssef Chahir , GREYC, CNRS UMR 6072 (chahir@info.unicaen.fr))
libre
39. Détection d'ombres des objets en mouvement ( encadrant : Youssef Chahir , GREYC, CNRS UMR 6072 (chahir@info.unicaen.fr))
Laurent Stoker ( web , email )
40. Supervision d'infrastructure répartie virtualisée ( encadrants : Christophe Turbout, CERTIC, Université de Caen (christophe.turbout@info.unicaen.fr) et Frédéric Marin, OpenMango (frederic.marin@openmango.com))
libre
41. Protocole de vote électronique ( encadrants : Guilhem Castagnos, GREYC, CNRS UMR 6072 (Guilhem.Castagnos@info.unicaen.fr) et Fabien Laguillaumie, GREYC, CNRS UMR 6072 (Fabien.Laguillaumie@info.unicaen.fr))

Sujets

Étudiants
Sujets
Jérôme Chauveau ( web , email )
1. Sauvegarde d'information géographique au format KML et GML pour Ompg, une surcouche d'Openmap.

OMPG est une extension d'OPENMAP développée depuis plusieurs années au sein du GREYC. Cette extension tente de séparer les couches de données des couches interfaces d'openmap (application d'un modèle général MVC) et apporte les fonctionnalités nécéssaires pour réaliser des cartes de géographie.

Schéma de classes d'OMPG
Schéma de classes d'OMPG

La gestion des données est réalisée par une couche d'abstraction (DataStorage) pour différentes sources de données permettant ainsi un changement souple de source d'information lors de la réalisation d'une carte de géographie.

Trois "DataStorage" sont actuellement implémentés, ShapeFileDataStorage, XMLTableDataStorage et PostgisDataStorage. Nous souhaitons rajouter d'autres sources d'informations dont une capable de lire et d'écrire du GML, langage de description d'information géographique promulgué par le consortium OpenGIS et actuellement dans sa version 3.1.1..

Travail à réaliser

Un premier travail a déja eu lieu, cependant seulement quelques fonctionnalités ont été implémentées (notamment la lecture d'un fichier GML). Le projet de cette année aura pour but l'implémentation complète de la norme pour la partie lecture et la mise en place d'une fonction d'écriture de fichier GML ainsi que la sauvegarde de cartes au format KML. Il faudra donc :

  1. Faire un audit du code existant.
  2. Finaliser l'implémentation de GMLDataStorage pour l'importation de fichiers GML.
  3. Implémenter la classe GMLDataStorage pour l'écriture d'information géographique au format GML.
  4. Fournir le détail des implémentation relativement à la norme.
  5. Développer les GUI nécessaires à la configuration et la sauvegarde de fichiers GML.
  6. permettre la sauvegarde d'une carte réalisée avec ompg pour google maps (kml restreint)
  7. permettre la sauvegarde d'une carte au format kml 2.2 (pour google earth)

Connaissances requises

La connaissance de Java est requise pour ce projet. L'utilisation du serveur subversion est obligatoire.

Jérôme Le Moulec ( web , email )
2. Étude et proposition d'implémentation de discovery services
Contexte

Tout le monde a entendu parler de la RFID, technologie révolutionnaire qui vise à mettre une puce physique sur un produit puis à la lire pour obtenir directement les informations du produit contenant la puce. EPC (Electronic Product Code) est un code unique associé à tout produit afin de permettre une tracabilité forte d'un produit tout au long de sa vie. Le réseau EPCGlobal a pour but de structurer les moyens (matériels et logiciels), les données ainsi que la façon d'échanger ces informations de façon à ce que 2 entreprises puissent tirer profit de la technologie et améliorer la logistique (supply chain) au sein de leur entreprise.

Travail à réaliser

Le projet consiste à étudier et faire une synthèse des problématiques Discovery Services au sein d'un réseau EPCglobal. il faudra :

  1. identifier et étudier différentes technologies susceptibles de répondre à tout ou partie de ces problématiques, par exemple moteur de recherche, XML routing, ...
  2. faire une ou deux propositions d'implémentation en s'appuyant sur les technos identifiées.

NB: Ce projet peut déboucher sur un stage chez France-Telecom Recherche et Développement de Caen en fonction du travail effectué.
Anon Yapi ( web , email )
3. Utilisation d'EPCglobal avec un téléphone mobile
Contexte

Tout le monde a entendu parler de la RFID, technologie révolutionnaire qui vise à mettre une puce physique sur un produit puis à la lire pour obtenir directement les informations du produit contenant la puce. EPC (Electronic Product Code) est un code unique associé à tout produit afin de permettre une tracabilité forte d'un produit tout au long de sa vie. Le réseau EPCGlobal a pour but de structurer les moyens (matériels et logiciels), les données ainsi que la façon d'échanger ces informations de façon à ce que 2 entreprises puissent tirer profit de la technologie et améliorer la logistique (supply chain) au sein de leur entreprise.

Travail à réaliser

Aujourd'hui les normes EPCglobal ne prennent en compte que la lecture RFID, hors il existe d'autres moyens d'identification d'informations. L'objectif du projet est d'étudier la généralisation de la collecte des informations de traçabilité à d'autres formes de terminaux, en particulier les mobiles avec lecture de databar ou de datamatrix (codes 2D).

NB: Ce projet peut déboucher sur un stage chez Orange Labs de Caen en fonction du travail effectué.
Alexandre Crochet ( web , email )
4. Mise a jour du registre au sein du projet RepXML au sein d'une plateforme ebXML
Contexte

Dans le cadre des échanges B2B, ebXML se veut le successeur de l'EDI. Basé sur une architecture et un ensemble de composants normalisés par l'OASIS, ebxml propose de fournir des outils pour mieux structurer et échanger l'information entre duex professionnels. RepXML est un projet lancé par EDIFrance dont le but est d'aider à la mise en oeuvre des échanges électroniques entre entreprises. RepXML, projet utilisant le paradigme de web services, a été développé en utilisant le registre de stockage de Freebxml. La nouvelle version de ce registre, disponible depuis un an, implemente l'intégralité des recommandations de l'OASIS ce qui n'était pas le cas lors de la réalisation de la première version de RepXML.

Travail à réaliser

Le but de ce projet est de porter RepXML sur la nouvelle version du registre fourni par FreebXML. Pour cela il faudra :

  1. Faire un état des lieux des fonctionnalités disponibles dans le cahier des charges et vérifier leur implémentation dans la version existante de FreebXML.
  2. Proposer une modelisation UML de la nouvelle implémentation.
  3. Proposer une mise à jour des technologies utilisées pour realiser l'implémentation.
  4. Réaliser l'implémentation.

Connaissances requises

La connaissance de Java est requise pour ce projet. L'utilisation du serveur subversion est obligatoire.

NB: Ce projet peut déboucher sur un stage chez Orange Labs de Caen en fonction du travail effectué.
Yvan Coquelin ( web , email )
5. Outils de validation de Core Components
Contexte

Dans le cadre des échanges B2B, ebXML se veut le successeur de l'EDI. Basé sur une architecture et un ensemble de composants normalisés par l'OASIS, ebxml propose de fournir des outils pour mieux structurer et échanger l'information entre duex professionnels. RepXML est un projet lancé par EDIFrance dont le but est d'aider à la mise en oeuvre des échanges électroniques entre entreprises. RepXML, projet utilisant le paradigme de web services, a été développé en utilisant le registre de stockage de Freebxml. La nouvelle version de ce registre, disponible depuis un an, implemente l'intégralité des recommandations de l'OASIS ce qui n'était pas le cas lors de la réalisation de la première version de RepXML.

Travail à réaliser

Le but de ce projet est de fournir un outil qui permette de valider les Core Components stockés dans RepXML. Pour cela, ilfaudra :

  1. Fournir un moyen simple de modéliser les 200 règles de validation existantes.
  2. Réaliser l'implémentation d'un outil prenant un flux textuel en entrée et vérifiant qu'il respecte les règles existantes.
  3. Proposer une version web service de cet outil

Connaissances requises

La connaissance de Java est requise pour ce projet. L'utilisation du serveur subversion est obligatoire.

NB: Ce projet peut déboucher sur un stage chez Orange Labs de Caen en fonction du travail effectué.
Stéphane Henry ( web , email )
6. Calibration de numérisation d'imagerie médicale par un appareil photo numérique
Contexte

Les spécialistes médicaux font un usage fréquent de l'imagerie médicale pour évaluer les pathologies, prévoir leurs interventions et en mesurer les effets. En particulier, les orthopédistes réalisent sur les radiographies un ensemble de mesures géométriques qui leur servent à préparer leurs opérations, à évaluer la justesse de la pose des implants chirurgicaux et contrôler leur évolution dans le temps.

Evamed, jeune entreprise spécialisée dans l'évaluation médicale, met à disposition de ses clients un outil facilitant les mesures réalisées sur des images médicales. Elle a développé un logiciel en java permettant de réaliser des constructions géométriques sur une image médicale, à partir de points anatomiques. La photographie numérique des grands clichés radiologiques (50cm x 70 cm par ex.) pose un problème méthodologique. En effet les déformations géométriques et les pertes d'informations sont parfois importantes.

Travail à réaliser

L'objectif du projet est d'apporter une méthode de prise de vue photographique assurant le maximum de qualité, et de développer un logiciel accessible en ligne capable de mesurer la déformation et la perte d'information. Les étapes du projet seront :

  1. Recherche documentaire sur les déformations et pertes d'informations classiques liées à la prise de photo numérique, ainsi que sur les méthodes de calibrage et les techniques d'analyse d'image à utiliser.
  2. Rédaction d'un protocole de prise de photo destiné à maximiser la qualité de la numérisation.
  3. Création d'une grille de calibrage et d'un logiciel destiné à valider la qualité de la numérisation en mesurant les déformations géométriques ainsi que les pertes de détails et de contrastes.

Connaissances requises

Le logiciel développé devra être léger et multi-plateforme. Une applet java semble la plus appropriée, la connaissance de java semble donc requise.

libre
7. Schémas interactifs en imagerie médicale
Contexte

Evamed, est une jeune entreprise spécialisée dans la réalisation d'études d'évaluation médicale. Elle a développé un outil informatique accessible en ligne permettant de déployer des études cliniques et de gérer des dossiers patients intégrant des formulaires dynamiques.

Exemple de radio et de mesure d'angle
Mesure d'un angle sur un radio de patient

Une part importante de l'activité consiste à recueillir via des formulaires HTML des données issues de l'analyse d'imageries médicales ou de l'observation clinique. Des schémas sont présentés en vis à vis des champs de saisie pour expliquer le sens de la mesure à réaliser. On trouve par exemple des mesures angulaires sur la mobilité des articulations, la position des implants, la reproduction anatomique (le patient a-t-il été allongé par la prothèse?).

Exemple d'interface de saisie
Exemple d'interface de saisie d'angles
Problématique

La définition de ces mesures géométriques est souvent complexe, et constitue un obstacle à la compréhension des formulaires médicaux. Il est donc souhaitable de rendre les schémas explicatifs interactifs pour en faciliter la lecture et accélérer le processus de saisie de l'information.

Travail à réaliser

L'objectif du projet est de développer un outil permettant de créer des schémas vectoriels dont certaines parties présentent des degrés de liberté permettant à l'utilisateur de modifier le schéma pour le faire correspondre à sa situation. Les degrés de libertés peuvent être des rotations (dans le cas de mesures d'angles) et des translations simples ou doubles (dans le cas de mesures de longueurs).

Le schéma dynamique devra renseigner les champ d'un formulaire avec les valeurs des degrés de liberté correspondant au positionnement des pièces mobiles.

Contraintes

La contrainte générale du projet est de générer des schémas « dynamiques » compatibles avec les technologies web (navigateurs standards, javascript et formulaires HTML). Ces schémas devront s'intégrer dans la solution en ligne d'Evamed.

Exemple de schéma : positionnement d'une cupule

Dans le cas de l'étude du positionnement d'une cupule (partie femelle de la rotule d'une prothèse de hanche) on veut pouvoir faire tourner la rotule sur son centre, et déplacer ce centre suivant les axes X et Y. Sur le schéma devront figurer les angles alpha et béta et la mesure CH. Ces mesures seront mises à jour en fonction des déplacements de l'objet libre.

Exemple de positionnement d'une cupule
Positionnement graphique d'un angle d'une cupule

Le schéma « dynamique » ainsi créé devra pouvoir transférer le résultat de ces mesures dans les champs d'un formulaire HTML.

Choix technologiques

Le choix des technologies fait partie du travail de l'étudiant. Il devra évaluer les possibilités des différents langages (Java, javascript, SVG, AJAX, XML...) dans le cadre des contraintes de ce projet et mener l'implémentation jusqu'à l'intégration dans l'outil Evamed.

libre
8. Problème du voyageur de commerce sur le web

Le problème du voyageur de commerce est un problème connu comme étant un problème np-complet, ie un problème algorithmiquement difficile à résoudre en un temps limité. Par ailleurs, les accès à des services web sont de plus en plus nombreux. Parmi ces derniers, google maps est un service accessible sur le web qui offre des fonctionnalités nombreuses en terme d'interaction pour visualiser de l'information géographique.

Le but du projet va être de réaliser un service offrant à un voyageur de commerce la possibilité d'obtenir une tournée optimale en fonction de critères qu'il sélectionnera.

Travail à réaliser

Mettre en place un service basé sur google maps pour la réalisation d'une tournée. Il sera nécessaire de :

  1. Définir un web service capable de calculer une tournée optimum à partir de l'ensemble des points constituant la tournée ainsi que de contraintes fixées par l'utilisateur.
  2. Interfacer google maps pour la saisie des étapes et le rendu des circuits.
Le langage est laissé au choix de l'étudiant. Le web service implémentant le problème du voyageur de commerce utilisera ROUTE 500 comme fichier de ressource des routes, donnée nécessaire pour la réalisation de l'implémentation de l'algorithme du voyageur de commerce.

Sébastien Picot ( web , email )
9. Mise en place d'outil de surveillance et de gestion pour le CERTIC
Contexte

Le CERTIC est une structure d'interface entre les entreprises et les laboratoires d'informatiques de l'Université de Caen, notamment le GREYC. Disposant d'une salle de formation, de bureaux d'accueil, d'une plateforme matérielle au 17 rue Claude Bloch dans les locaux du CIT, le CERTIC doit, de par sa nature, être à même de configurer et d'administrer facilement sa plateforme pour l'adapter aux besoins des différents projets qu'il héberge.

Travail à réaliser

Le but de ce projet est de mettre en place les outils nécessaires pour permettre une administration aisée de la plateforme matérielle et logicielle du CERTIC. Ainsi, l'étudiant devra :

  1. Mettre en place Nagios, ou sa surcouche centreon, pour surveiller les différentes machines et services disponibles sur la plateforme du CERTIC.
  2. Développer les sondes SNMP pour les services de production du CERTIC (site web, subversion, web services, bases de données, etc...).
  3. Mettre en place un outil d'installation automatique pour les machines de la plateforme. Proposer différents profils (développement, formation, etc...).
  4. Configurer automatiquement les nouvelles machines pour qu'elles apparaissent dans l'outil de management de la plateforme.

Connaissances requises

Des connaissances en réseau et en administration Unix sont requises pour le projet. La version de linux installée sera Debian.

libre
10. Dialecto
Contexte
L'OUEN (OFFICE UNIVERSITAIRE D'ETUDES NORMANDES) est un organisme fédérateur qui regroupe des chercheurs qui effectuent leur recherche sur la Normandie. Dans ce cadre, certains de ces chercheurs, linguistes de leur état, ont lancé une enquête nommée « Patrimoine linguistique et pratiques langagières et en Normandie ». Le but du projet va être de construire un outil pour partager et valoriser les recherches ainsi que les résultats qui en découlent.
Travail à réaliser
Le système informatique à construire devra permettre :
  1. L'intégration des résultats de l'enquête menée par différentes persones (texte, données audio, fichier excel résultants de l'analyse, etc ...)
  2. Cartographier les pratiques langagières, phonétiques et lexicales. Il faut être capable de définir une zone langagière commune pour un trait langagier particulier.
  3. Permettre l'accès à tous les résultats de l'enquête, par géolocalisation, pratique langagière, question, témoin, etc...
  4. Permettre l'exportation des données sotckées dans le système au format, XML, texte ...
Connaissances requises

Langages utilisés : PHP5 objet pour le back-office, un autre langage pour l'algorithme de création des zones langagières communes.

libre
11. Amélioration de Zsync
Contexte

ULTEO est une jeune entreprise innovante incubée par Normandie Incubation. Ulteo travaille à l'élaboration de solutions innovantes autour des systèmes d'exploitations.

Dans ce cadre, ULTEO utilise Zsync, un outil de transfert de fichier incrémental sur protocole HTTP. Il permet d'obtenir une mise à jour d'un fichier depuis un serveur en ne transférant que les modifications ayant eu lieu sur un fichier, ce qui lui permet d'être efficace lors de la mise à jour de gros fichiers. Pour optimiser les transferts, Zsync utilise gzip pour compresser les données ce qui est important lorsque le débit réseau est faible (comme cela peut être le cas lorsque l'on utilise l'ADSL).

Le but de ce projet va être d'étudier une optimisation des flux d'informations entre un client et un serveur de façon à minimiser les données échangées lors de la mise à jour d'un fichier.

Travail à réaliser

Le travail à réaliser sera effectué en différentes étapes :

  1. Etudier le principe de Zsync et les algorithmes sous-jacents.
  2. Détecter les optimisations possibles dans les techniques de compressions utilisées (l'utilisation de bzip2 à la place de gzip est-elle un solution enviseageable ?).
  3. Proposer une implémentation des modifications.
  4. Tester et montrer en quoi la nouvelle version est plus ou moins performante que Zsync.

Connaissances requises

Des connaissances en algorithmique sont souhaitées pour ce projet.

Franck Malherbe ( web , email )
12. Éditeur de workflow dans une plateforme de dématérialisation
Contexte

Eurodemat est une jeune entreprise innovante incubée par Normandie Incubation. Eurodemat travaille à l'élaboration d'une plateforme de dématérialisation des factures. Dans le cadre de cette plateforme, Eurodemat doit intégrer un workflow pour la signature d'une facture par plusieurs personnes.

Travail à réaliser

Pour ce projet, il faudra :

  1. Indentifier les actions, intervenants et contraintes mis en oeuvre dans le workflow de la signature d'un document.
  2. Modélisation en UML.
  3. Etude des outils de workflow libres disponibles sur le web. Comparer les fonctionnalités par rapport aux besoins.
  4. Implémentation.
  5. Tests et intégration dans la plateforme.

Connaissances requises

Utilisation de subversion obligatoire.

NB: Ce projet peut déboucher sur un stage chez Eurodemat.
libre
13. « Carte » d'un document
Contexte

La plupart des systèmes de recherche d'information gagneraient à produire une vue globale du document, pour permettre à la fois un point de départ pour une recherche à l'intérieur du document, et la représentation d'une collection de documents sous forme de vignettes.

Par exemple, les documents ramenés par un moteur de recherche seraient ainsi représentés pour indiquer dans quel passage de texte les mots-clés de la requête ont été trouvés. Les images de texte peuvent aussi servir comme une sorte de mémoire des documents parcourus, spécialement quand ceux-ci sont longs.

Objectifs

Le but du projet est de fournir une représentation réduite de n'importe quel document, quelle que soit sa taille, sur une page écran. Cette « carte » ou image ou vue plane du document doit représenter la disposition d'ensemble du document. Elle doit permettre par exemple de distinguer un document des autres dans une collection.

La présentation sera faite en SVG, à partir de documents HTML ou PDF.

Morgan Champenois ( web , email )
14. Utilisation de fichiers inversés pour la recherche de documents dans des bases de très grandes tailles.
Contexte

Nous nous intéressons à la recherche de documents textuels présents dans des bases de documents de très grande taille. L'échelle visée est celle d'internet, aussi l'ordre de grandeur est celui de la centaine de millions de documents.

Nous supposons que l'utilisateur formule une requête sous forme d'un ensemble de mots clés, et que le système doit retourner, dans un laps de temps le plus court possible, la liste des documents qui contiennent ces mots clés.

Compte tenu du nombre de document, il n'est bien entendu pas envisageable de les parcourir tous à chaque nouvelle requête.

Nous nous intéresserons donc ici aux méthodes permettant une recherche sous-linéaire par rapport au nombre de documents, et en particulier aux méthodes basées sur des "fichiers inversés".

Objectifs

Nous implémenterons l'une de ces méthodes et nous la validerons dans un premier temps sur un corpus de documents textuels. Dans un second temps nous réaliserons l'indexation d'un site complet comportant plusieurs dizaines de milliers de pages. Une interface écrite en PHP permettra l'utilisation du moteur de recherche via une page web.

Un accent particulier sera mis sur le problème de la complexité des algorithmes et sur leur capacité à passer à l'échelle.

Abdelkader Benchikh ( web , email )
15. Utilisation de fichiers inversés : sélection d'un vocabulaire informatif
Contexte

Nous nous intéressons à la recherche de documents textuels présents dans des bases de documents de très grande taille. L'échelle visée est celle d'internet, aussi l'ordre de grandeur est celui de la centaine de millions de documents.

Nous supposons que l'utilisateur formule une requête sous forme d'un ensemble de mots clés, et que le système doit retourner, dans un laps de temps le plus court possible, la liste des documents qui contiennent ces mots clés. Nous nous intéresserons donc ici aux méthodes permettant une recherche sous-linéaire par rapport au nombre de documents, et en particulier aux méthodes basées sur des « fichiers inversés ».

Le nombre de fichiers inversés, égal au nombre de mots du vocabulaire, est généralement très élevé. Cependant tous les mots du vocabulaire n'ont pas la même importance (les déterminants par exemple sont porteurs de peu d'information), et nous allons, pour en limiter le nombre, mettre au point une méthode de sélection automatique des mots clés les plus informatifs.

Objectifs
Pour ce faire, nous allons utiliser un petit corpus de documents pour lesquels les catégories de ces documents sont connues. Nous prendrons l'exemple des dépêches et définirons 10 classes différentes (sport, politique, etc.). Nous entraînerons un classifieur Bayésien, capable de modéliser les différentes classes à partir de la présence/absence d'un mot particulier du vocabulaire dans le document, et utiliserons cette modélisation pour dresser la liste des mots clés les plus informatifs.
libre
16. Explorer l'indexation des documents d'écriture alphabétique par mots et par caractères
Contexte

Le concept de mot est à la base des moteurs de recherche actuels :

  1. indexer un document consiste à le découper en mots et enregistrer dans l'index que ces mots sont dans ce document;
  2. et rechercher des documents consiste pour l'internaute à écrire une requête sous forme de quelques mots, et pour le moteur à lui renvoyer les URL classées des documents contenant ces mots.

Le mot est bien inscrit dans l'écriture alphabétique des langues occidentales (sauf en finnois, et sauf les mots composés en anglais, en allemand) ; de plus le mot est variable (nombre, cas), et plusieurs formes correspondent à un même sens. Par exemple, si on recherche war, on n'obtient pas les documents contenant wars ou wargame.

Mais en chinois ou en japonais, les mots ne sont pas délimités dans l'écriture, mais reconstitués par le lecteur. Comment les documents en chinois sont-ils indexés ? Les documents sont indexés par des suites de n lettres (on dit n-grammes), n étant compris entre 1 et 4 pour le chinois.

Travail réalisé l'an dernier

Le sujet de l'an dernier avait un but exploratoire : comment repenser la problématique des moteurs de recherche sans utiliser le concept de mot, donc en indexant les documents de langues à écriture alphabétique comme les langues à idéogrammes telles que le chinois : par n-grammes.

Ces explorations ont montré que l'indexation par n-grammes permet de retrouver des documents qui contiennent les mots demandés et aussi leurs variantes (war demandé -> wars et wargame aussi obtenus), ou une partie des mots demandés (wars demandé -> war aussi obtenu), ce qui comble des silences de l'indexation par mots, mais au prix de beaucoup de bruit (des documents non pertinents).

Quelques expériences de méthodes hybrides (indexation par n-grammes et par mots) ont été faites ; cette piste bénéficie des avantages des 2 méthodes et semble prometteuse.

C'est cette piste que vous allez explorer cette année.

Objectifs

  1. Explorer expérimentalement des méthodes hybrides d'indexation et de recherche par mot et par n-grammes, pour des documents de langues d'écriture alphabétique.
  2. Évaluer comparativement la méthode par mot et les méthodes hybrides par mot et par n-grammes.

Protocole expérimental :

  1. télécharger des documents (100, puis 1000) ;
  2. les indexer par la méthode hybride expérimentée ;
  3. faire des expérimentations de recherche et classement de documents à partir de différents types de requête ;
  4. faire ces expérimentations sur des langues alphabétiques variées (français, anglais, allemand, finnois, ...) (si on ne connait pas la langue, on a besoin d'un locuteur pour écrire des requêtes, et juger de la pertinence des réponses) ;
  5. mettre en place la méthode classique d'indexation par mots pour faire des évaluations comparatives sur les mêmes collections de documents ;
  6. pour chaque requête, pour chaque méthode, évaluer la pertinence des 10 premiers documents obtenus ;
  7. comparer les résultats des différentes méthodes.
À lire
Sergey Brin and Lawrence Page (les concepteurs de Google) (1998) The Anatomy of a Large-Scale Hypertextual Web Search Engine http://www-db.stanford.edu/pub/papers/google.pdf
libre
17. Extraction de données séquentielles pour le jeu vidéo
Contexte

Le jeu video est en plein développement et on voit apparaître des joueurs professionnels, sponsorisé par des équipementiers d'informatique ou des éditeurs de jeux. Les services aanexes proposés au joeur connaissent le même engouement, Nous souhaitons proposer des méthodes d'aide à la décision qui permettent de produire des recommandations stratégiques.

Warcraft III est un jeu de stratégie en temps réel. DotA est un mode opposant des équipes de héros. Chaque héros possède des caractéristiques uniques et peut être équipé d'items qui les améliorent.

Copie d'écran de Warcraft
Copie d'écran de Warcraft
Objectifs

Pendant la rediffusion d'un match de DotA, vous effectuez l'acquisition vidéo de la mini-carte, située en bas à gauche de l'écran. À partir de cette vidéo, vous extrayez la position au cours du temps de chaque joueur, créature et bâtiment du jeu pour produire un relevé XML du match.

Agrandissement de la mini-carte
Agrandissement de la mini carte
Technologies

Vidéo et image, acquisition d'une portion de l'écran, technologies XML en particulier PMML (Predictive Model Markup Language). Une motivation et une bonne connaissance du jeu vidéo ou du sport est un atout pour ce projet.

libre
18. Traitement linguistique des appels à contribution pour les conférences scientifiques
Contexte

La présentation d'articles lors de conférence est la base de l'économie du chercheur. Abonné à des listes de diffusion, celui-ci reçoît quotidiennement plusieurs appels à contribution au format texte, qui ne le concernent pas toujours.

Il n'existe pas à ce jour de format standard pour un appel à contribution et l'extraction d'information doit être réalisée à l'aide de techniques de traitement automatique du langage. Lorsque cette étape est réalisée, un site internet rassemblant ces appels est simple à concevoir.


Travail demandé

Ce projet est découpé en plusieurs parties, à moduler suivant la formation, la motivation et le niveau de l'étudiant :

  1. Proposer une chaîne de traitement linguistique d'un appel à contribution pour étiqueter le titre de la conférence, les lieux, dates, mot-clés, membres du comité de programme. Cette chaîne est élaborée à l'aide de LinguaStream, qui propose une interface graphique et la conception de traitement à l'aide d'enchaînement de tâches élémentaires. Les résultats sont indexés dans une base de données XML eXist.
  2. Réaliser un site internet en XQuery sous eXist ou avec un système de gestion de contenus comme typo3 qui présente les appels à contribution.
  3. Évaluer les performances de la chaîne d'extraction d'information et proposer une structuration du système d'information et des connaissances potentielles.
Technologies

Expressions régulières, traitement automatique de la langue, grammaires, technos XML.

Il faut pour la première partie de ce projet un étudiant motivé par l'extraction d'information dans des corpus de texte. C'est la tâche préliminaire essentielle à la qualité du service attendu.

libre
19. Recommandation pour la publication scientifique
Contexte

La publication d'articles lors de conférence ou dans des revues est la base de l'économie du chercheur. Il existe cependant de nombreuses conférences et journaux qu'il est difficile pour le chercheur de connaître exhaustivement. La recommandation de soumission pour la publication scientifique soulage ce travail.

Cette information est cependant potentiellement disponible puisque de nombreux sites internet recensent les publications (google Scholar, CiteSeer, DBLP). À partir d'un auteur, on peut reconstituer les endroits où il publie et les collègues avec lesquels il publie régulièrement.

Travail demandé

Ce projet est découpé en deux parties, à moduler suivant la formation, la motivation et le niveau de l'étudiant :

  1. En utilisant les ressources d'internet et l'indication de quelques auteurs phares d'un domaine scientifique, vous reconstituez le réseau social correspondant et les sources récurrentes de publication.
  2. Des techniques de fouille de données permettent la sélection de l'information pertinente.
Technologies
Balayage du web, XML techno, fouille de données.
libre
20. Analyse des forums de cameravideo.net
Contexte

Créé voici deux ans, cameravideo.net dispose de forums très actifs (environ 100.000 visiteurs/mois et un million de pages vues) et aborde les différents thèmes qui tournent autour de la vidéo numérique (de l'achat de matériel, montage, realisation de films, post-production) .

On constate ce qui arrive à tous les forums, une masse d'information tombe dans l'oubli faute de classification et de structuration.

site caméra vidéo
Site caméra vidéo
Travail demandé

On souhaite structurer l'information contenue dans les forums afin de proposer à l'utilisateur un accès plus ergonomique. Pour cela, le corpus des forums subit un traitement linguistique à l'aide de Linguastream, une plateforme graphique pour le TAL (les TP de fouille de données s'appuient également sur Linguastream). À l'issue de ce traitement, les mots ou groupes de mots émergents sont capturées et structurent l'information.

Ce projet peut être prolongé en stage.

Technologies

Fondamentaux du traitement automatique des langues, Linguastream, fouille de données. Pour réaliser ce projet, il faut être motivé pour la prise en charge de gros corpus de texte et la réalisation d'une chaîne de fouille de données.

copie d'écran session lingua stream
Copie d'écran session lingua stream
libre
21. Système de traduction automatique
Arrière-plan du projet

Il s'agit de réaliser entièrement un système de traduction automatique par l'exemple et par analogie en appliquant les principes de la conception du logiciel et de la programmation objet. En plus, il s'agit de réaliser une interface de traduction en ligne et de traduction de fichiers de quelques centaines de lignes, avec évaluation automatique de la qualité de traduction.

Le principe de traduction par l'exemple et par analogie est le suivant. Pour traduire la phrase Il traversait la rivière à la nage. on recherche des phrases similaires ou pas, dont on connaît à l'avance des traductions. Par exemple :

  1. Elle traverse la rivière à la nage. She swims across the river.
  2. Il chantait. He sang.
  3. Elle chante She sings.

De ces trois phrases particulières, on peut dire que « Il traversait la rivière à la nage. » est à la phrase « Elle traverse la rivière à la nage. » comme la phrase « Il chantait. ». est à la phrase « Elle chante. ».

En transposant en anglais, on peut dire que la phrase recherchée doit être à la phrase « She swims across the river. » comme la phrase « He sang. » est à la phrase « She sings. »

La seule phrase correspondant à cette définition est : « He swam across the river. », qui est bien une traduction de « Il traversait la rivière à la nage. ».

D'autres exemples sont disponibles dans ce poster
Travail à effectuer
  1. Spécification complète du système à l'aide de diagrammes UML complets.
  2. Implémentation complète du système en Python (langage imposé).
  3. Spécification et implémentation de l'interface de traduction et de test.
  4. Démonstration avec des jeux de tests de campagnes internationales d'évaluation de la traduction automatique.
Apport attendu
  1. Le système peut être testé sur plusieurs jeux de tests de campagnes internationales d'évaluation de la traduction automatique. Ces jeux de tests comprennent des données d'entraînement, des données de développement et des données de tests avec leur références. On attend la mise en place d'une interface graphique pour lancer des démonstrations avec des jeux de tests stocker les résultats et les comparer automatiquement. Cela implique l'intégration de modules existants d'évaluation automatique.
  2. Des données nouvelles peuvent être obtenues par alignement sous-phrastique au moyen de programmes disponibles sur le web ou mis au point au laboratoire GREYC. On attend la mise en place d'une interface graphique pour lancer des démonstrations avec des jeux de tests incluant ou pas certains des alignements ainsi obtenus afin de comparer les performances.
  3. Diverses heuristiques sont déjà mises en place dans le système actuel (écrit en C) pour restreindre l'espace de recherche. On attend la mise en place d'une interface de paramétrage pour pouvoir mesurer automatiquement la contribution des diverses heuristiques.
Cyril Guerard ( web , email )
22. Synthèse de texture et application en retouches d'images et vidéo naturelles
Contexte
La synthèse de textures doit permettre de retoucher une image après suppression ou effacement d'une partie afin de garder une bonne apparence visuelle.
Objectifs
Il s'agit dans une première phase d'implémenter l'algorithme de synthèse de texture, et de le tester ensuite sur des images artificielles.
Programmation
C++ sur