OMPG est une extension d'OPENMAP développée depuis plusieurs années au sein
du GREYC. Cette extension tente de séparer les couches de données des couches interfaces d'openmap (application d'un modèle général MVC) et apporte les fonctionnalités nécéssaires pour réaliser des cartes de géographie.
Schéma de classes d'OMPG
La gestion des données est réalisée par une couche d'abstraction (DataStorage) pour différentes sources de données permettant ainsi un changement souple de source d'information lors de la réalisation d'une carte de géographie.
Trois "DataStorage" sont actuellement implémentés, ShapeFileDataStorage, XMLTableDataStorage et PostgisDataStorage. Nous souhaitons rajouter d'autres sources d'informations dont une capable de lire et d'écrire du GML, langage de description d'information géographique promulgué par le consortium OpenGIS et actuellement dans sa version 3.1.1..
Travail à réaliser
Un premier travail a déja eu lieu, cependant seulement quelques fonctionnalités ont été implémentées (notamment la lecture d'un fichier GML). Le projet de cette année aura pour but l'implémentation complète de la norme pour la partie lecture et la mise en place d'une fonction d'écriture de fichier GML ainsi que la sauvegarde de cartes au format KML. Il faudra donc :
Faire un audit du code existant.
Finaliser l'implémentation de GMLDataStorage pour l'importation de fichiers GML.
Implémenter la classe GMLDataStorage pour l'écriture d'information géographique au format GML.
Fournir le détail des implémentation relativement à la norme.
Développer les GUI nécessaires à la configuration et la sauvegarde de fichiers GML.
permettre la sauvegarde d'une carte réalisée avec ompg pour google maps (kml restreint)
permettre la sauvegarde d'une carte au format kml 2.2 (pour google earth)
Connaissances requises
La connaissance de Java est requise pour ce projet. L'utilisation du serveur subversion est obligatoire.
Tout le monde a entendu parler de la RFID, technologie
révolutionnaire qui vise à mettre une puce physique sur un produit
puis à la lire pour obtenir directement les informations du produit
contenant la puce. EPC (Electronic Product Code) est un code unique
associé à tout produit afin de permettre une tracabilité forte d'un
produit tout au long de sa vie. Le réseau EPCGlobal a pour but de
structurer les moyens (matériels et logiciels), les données ainsi que
la façon d'échanger ces informations de façon à ce que 2 entreprises
puissent tirer profit de la technologie et améliorer la logistique (supply chain) au
sein de leur entreprise.
Travail à réaliser
Le projet consiste à étudier et faire une synthèse des problématiques Discovery Services au sein d'un réseau EPCglobal. il faudra :
identifier et étudier différentes technologies susceptibles de répondre à tout ou partie de ces problématiques, par exemple moteur de recherche, XML routing, ...
faire une ou deux propositions d'implémentation en s'appuyant sur les technos identifiées.
NB:
Ce projet peut déboucher sur un stage chez France-Telecom Recherche et Développement de Caen en fonction du travail effectué.
Tout le monde a entendu parler de la RFID, technologie
révolutionnaire qui vise à mettre une puce physique sur un produit
puis à la lire pour obtenir directement les informations du produit
contenant la puce. EPC (Electronic Product Code) est un code unique
associé à tout produit afin de permettre une tracabilité forte d'un
produit tout au long de sa vie. Le réseau EPCGlobal a pour but de
structurer les moyens (matériels et logiciels), les données ainsi que
la façon d'échanger ces informations de façon à ce que 2 entreprises
puissent tirer profit de la technologie et améliorer la logistique (supply chain) au
sein de leur entreprise.
Travail à réaliser
Aujourd'hui les normes EPCglobal ne prennent en compte que la lecture RFID, hors il existe d'autres moyens d'identification d'informations. L'objectif du projet est d'étudier la généralisation de la collecte des informations de traçabilité à d'autres formes de terminaux, en particulier les mobiles avec lecture de databar ou de datamatrix (codes 2D).
NB:
Ce projet peut déboucher sur un stage chez Orange Labs de Caen en fonction du travail effectué.
Dans le cadre des échanges B2B, ebXML se veut le successeur de l'EDI. Basé sur une architecture et un ensemble de composants normalisés par l'OASIS, ebxml propose de fournir des outils pour mieux structurer et échanger l'information entre duex professionnels. RepXML est un projet lancé par EDIFrance dont le but est d'aider à la mise en oeuvre des échanges électroniques entre entreprises. RepXML, projet utilisant le paradigme de web services, a été développé en utilisant le registre de stockage de Freebxml. La nouvelle version de ce registre, disponible depuis un an, implemente l'intégralité des recommandations de l'OASIS ce qui n'était pas le cas lors de la réalisation de la première version de RepXML.
Travail à réaliser
Le but de ce projet est de porter RepXML sur la nouvelle version du registre fourni par FreebXML. Pour cela il faudra :
Faire un état des lieux des fonctionnalités disponibles dans le cahier des charges et vérifier leur implémentation dans la version existante de FreebXML.
Proposer une modelisation UML de la nouvelle implémentation.
Proposer une mise à jour des technologies utilisées pour realiser l'implémentation.
Réaliser l'implémentation.
Connaissances requises
La connaissance de Java est requise pour ce projet. L'utilisation du serveur subversion est obligatoire.
NB:
Ce projet peut déboucher sur un stage chez Orange Labs de Caen en fonction du travail effectué.
Dans le cadre des échanges B2B, ebXML se veut le successeur de l'EDI. Basé sur une architecture et un ensemble de composants normalisés par l'OASIS, ebxml propose de fournir des outils pour mieux structurer et échanger l'information entre duex professionnels. RepXML est un projet lancé par EDIFrance dont le but est d'aider à la mise en oeuvre des échanges électroniques entre entreprises. RepXML, projet utilisant le paradigme de web services, a été développé en utilisant le registre de stockage de Freebxml. La nouvelle version de ce registre, disponible depuis un an, implemente l'intégralité des recommandations de l'OASIS ce qui n'était pas le cas lors de la réalisation de la première version de RepXML.
Travail à réaliser
Le but de ce projet est de fournir un outil qui permette de valider les Core Components stockés dans RepXML. Pour cela, ilfaudra :
Fournir un moyen simple de modéliser les 200 règles de validation existantes.
Réaliser l'implémentation d'un outil prenant un flux textuel en entrée et vérifiant qu'il respecte les règles existantes.
Proposer une version web service de cet outil
Connaissances requises
La connaissance de Java est requise pour ce projet. L'utilisation du serveur subversion est obligatoire.
NB:
Ce projet peut déboucher sur un stage chez Orange Labs de Caen en fonction du travail effectué.
Les spécialistes médicaux font un usage fréquent de l'imagerie
médicale pour évaluer les pathologies, prévoir leurs interventions et
en mesurer les effets. En particulier, les orthopédistes réalisent sur
les radiographies un ensemble de mesures géométriques qui leur servent
à préparer leurs opérations, à évaluer la justesse de la pose des
implants chirurgicaux et contrôler leur évolution dans le temps.
Evamed, jeune entreprise spécialisée dans
l'évaluation médicale, met à disposition de ses clients un outil
facilitant les mesures réalisées sur des images médicales. Elle a
développé un logiciel en java permettant de réaliser des constructions
géométriques sur une image médicale, à partir de points
anatomiques. La photographie numérique des grands clichés
radiologiques (50cm x 70 cm par ex.) pose un problème
méthodologique. En effet les déformations géométriques et les pertes d'informations sont parfois importantes.
Travail à réaliser
L'objectif du projet est d'apporter une méthode de prise de vue photographique assurant le maximum de qualité, et de développer un logiciel accessible en ligne capable de mesurer la déformation et la perte d'information. Les étapes du projet seront :
Recherche documentaire sur les déformations et pertes d'informations classiques liées à la prise de photo numérique, ainsi que sur les méthodes de calibrage et les techniques d'analyse d'image à utiliser.
Rédaction d'un protocole de prise de photo destiné à maximiser la qualité de la numérisation.
Création d'une grille de calibrage et d'un logiciel destiné à valider la qualité de la numérisation en mesurant les déformations géométriques ainsi que les pertes de détails et de contrastes.
Connaissances requises
Le logiciel développé devra être léger et multi-plateforme. Une applet java semble la plus appropriée, la connaissance de java semble donc requise.
Evamed, est une jeune entreprise spécialisée dans la réalisation d'études d'évaluation médicale. Elle a développé un outil informatique accessible en ligne permettant de déployer des études cliniques et de gérer des dossiers patients intégrant des formulaires dynamiques.
Mesure d'un angle sur un radio de patient
Une part importante de l'activité consiste à recueillir via des formulaires HTML des données issues de l'analyse d'imageries médicales ou de l'observation clinique. Des schémas sont présentés en vis à vis des champs de saisie pour expliquer le sens de la mesure à réaliser. On trouve par exemple des mesures angulaires sur la mobilité des articulations, la position des implants, la reproduction anatomique (le patient a-t-il été allongé par la prothèse?).
Exemple d'interface de saisie d'angles
Problématique
La définition de ces mesures géométriques est souvent complexe, et constitue un obstacle à la compréhension des formulaires médicaux. Il est donc souhaitable de rendre les schémas explicatifs interactifs pour en faciliter la lecture et accélérer le processus de saisie de l'information.
Travail à réaliser
L'objectif du projet est de
développer un outil permettant de créer des schémas vectoriels dont
certaines parties présentent des degrés de liberté permettant à l'utilisateur de modifier le schéma pour le faire correspondre à sa
situation. Les degrés de libertés peuvent être des rotations (dans le
cas de mesures d'angles) et des translations simples ou doubles (dans
le cas de mesures de longueurs).
Le schéma dynamique devra renseigner les champ d'un formulaire avec les valeurs des degrés de liberté correspondant au positionnement des pièces mobiles.
Contraintes
La contrainte générale du projet est de générer des schémas « dynamiques » compatibles avec les technologies web (navigateurs standards, javascript et formulaires HTML). Ces schémas devront s'intégrer dans la solution en ligne d'Evamed.
Exemple de schéma : positionnement d'une cupule
Dans le cas de l'étude du positionnement d'une cupule (partie femelle de la rotule d'une prothèse de hanche) on veut pouvoir faire tourner la rotule sur son centre, et déplacer ce centre suivant les axes X et Y. Sur le schéma devront figurer les angles alpha et béta et la mesure CH. Ces mesures seront mises à jour en fonction des déplacements de l'objet libre.
Positionnement graphique d'un angle d'une cupule
Le schéma « dynamique » ainsi créé devra pouvoir transférer le résultat de ces mesures dans les champs d'un formulaire HTML.
Choix technologiques
Le choix des technologies fait partie du travail de l'étudiant. Il devra évaluer les possibilités des différents langages (Java, javascript, SVG, AJAX, XML...) dans le cadre des contraintes de ce projet et mener l'implémentation jusqu'à l'intégration dans l'outil Evamed.
Le problème du voyageur de commerce est un problème connu comme étant un problème np-complet, ie un problème algorithmiquement difficile à résoudre en un temps limité. Par ailleurs, les accès à des services web sont de plus en plus nombreux. Parmi ces derniers, google maps est un service accessible sur le web qui offre des fonctionnalités nombreuses en terme d'interaction pour visualiser de l'information géographique.
Le but du projet va être de réaliser un service offrant à un voyageur de commerce la possibilité d'obtenir une tournée optimale en fonction de critères qu'il sélectionnera.
Travail à réaliser
Mettre en place un service basé sur google maps pour la réalisation d'une tournée. Il sera nécessaire de :
Définir un web service capable de calculer une tournée optimum à partir de l'ensemble des points constituant la tournée ainsi que de contraintes fixées par l'utilisateur.
Interfacer google maps pour la saisie des étapes et le rendu des circuits.
Le langage est laissé au choix de l'étudiant. Le web service implémentant le problème du voyageur de commerce utilisera ROUTE 500 comme fichier de ressource des routes, donnée nécessaire pour la réalisation de l'implémentation de l'algorithme du voyageur de commerce.
Le CERTIC est une structure
d'interface entre les entreprises et les laboratoires d'informatiques
de l'Université de Caen, notamment le GREYC. Disposant d'une salle de
formation, de bureaux d'accueil, d'une plateforme matérielle au 17 rue
Claude Bloch dans les locaux du CIT, le CERTIC doit, de par sa nature,
être à même de configurer et d'administrer facilement sa plateforme
pour l'adapter aux besoins des différents projets qu'il héberge.
Travail à réaliser
Le but de ce projet est de mettre en place les outils nécessaires
pour permettre une administration aisée de la plateforme matérielle et
logicielle du CERTIC. Ainsi, l'étudiant devra :
Mettre en place Nagios, ou sa surcouche centreon, pour surveiller les différentes machines et services disponibles sur la plateforme du CERTIC.
Développer les sondes SNMP pour les services de production du CERTIC (site web, subversion, web services, bases de données, etc...).
Mettre en place un outil d'installation automatique pour les machines de la plateforme. Proposer différents profils (développement, formation, etc...).
Configurer automatiquement les nouvelles machines pour qu'elles apparaissent dans l'outil de management de la plateforme.
Connaissances requises
Des connaissances en réseau et en administration Unix sont requises pour le projet. La version de linux installée sera Debian.
L'OUEN (OFFICE
UNIVERSITAIRE D'ETUDES NORMANDES) est un organisme fédérateur qui
regroupe des chercheurs qui effectuent leur recherche sur la
Normandie. Dans ce cadre, certains de ces chercheurs, linguistes de
leur état, ont lancé une enquête nommée « Patrimoine linguistique et
pratiques langagières et en Normandie ». Le but du projet va être de construire un outil pour partager et valoriser les recherches ainsi que les résultats qui en découlent.
Travail à réaliser
Le système informatique à construire devra permettre :
L'intégration des résultats de l'enquête menée par différentes persones (texte, données audio, fichier excel résultants de l'analyse, etc ...)
Cartographier les pratiques langagières, phonétiques et lexicales. Il faut être capable de définir une zone langagière commune pour un trait langagier particulier.
Permettre l'accès à tous les résultats de l'enquête, par géolocalisation, pratique langagière, question, témoin, etc...
Permettre l'exportation des données sotckées dans le système au format, XML, texte ...
Connaissances requises
Langages utilisés : PHP5 objet pour le back-office, un autre langage pour l'algorithme de création des zones langagières communes.
ULTEO est une jeune entreprise
innovante incubée par Normandie Incubation. Ulteo travaille à
l'élaboration de solutions innovantes autour des systèmes
d'exploitations.
Dans ce cadre, ULTEO utilise Zsync, un outil de transfert
de fichier incrémental sur protocole HTTP. Il permet d'obtenir une
mise à jour d'un fichier depuis un serveur en ne transférant que les
modifications ayant eu lieu sur un fichier, ce qui lui permet d'être
efficace lors de la mise à jour de gros fichiers. Pour optimiser les
transferts, Zsync utilise gzip pour compresser les données ce qui est
important lorsque le débit réseau est faible (comme cela peut être le
cas lorsque l'on utilise l'ADSL).
Le but de ce projet va être
d'étudier une optimisation des flux d'informations entre un client et
un serveur de façon à minimiser les données échangées lors de la mise
à jour d'un fichier.
Travail à réaliser
Le travail à réaliser sera effectué en différentes
étapes :
Etudier le principe de Zsync et les
algorithmes sous-jacents.
Détecter les optimisations
possibles dans les techniques de compressions utilisées (l'utilisation
de bzip2 à la place de gzip est-elle un solution enviseageable
?).
Proposer une implémentation des modifications.
Tester et montrer en quoi la nouvelle version est plus ou moins
performante que Zsync.
Connaissances requises
Des connaissances en algorithmique sont souhaitées pour ce projet.
Eurodemat est une jeune entreprise
innovante incubée par Normandie Incubation. Eurodemat travaille à
l'élaboration d'une plateforme de dématérialisation des factures. Dans
le cadre de cette plateforme, Eurodemat doit intégrer un workflow pour
la signature d'une facture par plusieurs personnes.
Travail à réaliser
Pour ce projet, il faudra :
Indentifier les actions, intervenants et contraintes mis en oeuvre dans le workflow de la signature d'un document.
Modélisation en UML.
Etude des outils de workflow libres disponibles sur le web. Comparer les fonctionnalités par rapport aux besoins.
Implémentation.
Tests et intégration dans la plateforme.
Connaissances requises
Utilisation de subversion obligatoire.
NB:
Ce projet peut déboucher sur un stage chez Eurodemat.
La plupart des systèmes de recherche d'information gagneraient à
produire une vue globale du document, pour permettre à la fois un
point de départ pour une recherche à l'intérieur du document, et la
représentation d'une collection de documents sous forme de
vignettes.
Par exemple, les documents ramenés par un moteur de
recherche seraient ainsi représentés pour indiquer dans quel passage
de texte les mots-clés de la requête ont été trouvés. Les images de
texte peuvent aussi servir comme une sorte de mémoire des documents
parcourus, spécialement quand ceux-ci sont longs.
Objectifs
Le but du projet est de fournir une représentation réduite de
n'importe quel document, quelle que soit sa taille, sur une page
écran. Cette « carte » ou image ou vue plane du document doit
représenter la disposition d'ensemble du document. Elle doit
permettre par exemple de distinguer un document des autres dans
une collection.
La présentation sera faite en SVG, à partir de documents HTML ou PDF.
Nous nous intéressons à la recherche de documents textuels présents
dans des bases de documents de très grande taille. L'échelle visée est
celle d'internet, aussi l'ordre de grandeur est celui de la centaine de
millions de documents.
Nous supposons que l'utilisateur formule une requête sous forme d'un
ensemble de mots clés, et que le système doit retourner, dans un laps de
temps le plus court possible, la liste des documents qui contiennent ces
mots clés.
Compte tenu du nombre de document, il n'est bien entendu pas
envisageable de les parcourir tous à chaque nouvelle requête.
Nous nous intéresserons donc ici aux méthodes permettant une recherche
sous-linéaire par rapport au nombre de documents, et en particulier aux
méthodes basées sur des "fichiers inversés".
Objectifs
Nous implémenterons l'une de ces méthodes et nous la
validerons dans un premier temps sur un corpus de documents
textuels. Dans un second temps nous réaliserons l'indexation
d'un site complet comportant plusieurs dizaines de milliers de
pages. Une interface écrite en PHP permettra l'utilisation du
moteur de recherche via une page web.
Un accent particulier sera mis sur le problème de la complexité des
algorithmes et sur leur capacité à passer à l'échelle.
Nous nous intéressons à la recherche de documents textuels présents
dans des bases de documents de très grande taille. L'échelle visée est
celle d'internet, aussi l'ordre de grandeur est celui de la
centaine de millions de documents.
Nous supposons que l'utilisateur formule une requête sous
forme d'un ensemble de mots clés, et que le système doit
retourner, dans un laps de temps le plus court possible, la
liste des documents qui contiennent ces mots
clés. Nous nous intéresserons donc ici aux méthodes permettant
une recherche sous-linéaire par rapport au nombre de documents,
et en particulier aux méthodes basées sur des « fichiers
inversés ».
Le nombre de fichiers inversés, égal au nombre de mots du
vocabulaire, est généralement très élevé. Cependant tous les
mots du vocabulaire n'ont pas la même importance (les
déterminants par exemple sont porteurs de peu d'information),
et nous allons, pour en limiter le nombre, mettre au point une
méthode de sélection automatique des mots clés les plus
informatifs.
Objectifs
Pour ce faire, nous allons utiliser un petit corpus de documents pour
lesquels les catégories de ces documents sont connues. Nous prendrons
l'exemple des dépêches et définirons 10 classes différentes (sport,
politique, etc.). Nous entraînerons un classifieur Bayésien, capable
de modéliser les différentes classes à partir de la présence/absence
d'un mot particulier du vocabulaire dans le document, et utiliserons
cette modélisation pour dresser la liste des mots clés les plus
informatifs.
libre
16. Explorer l'indexation des documents d'écriture alphabétique par mots et par caractères
Le concept de mot est à la base des moteurs de recherche actuels :
indexer un document consiste à le découper en mots et
enregistrer dans l'index que ces mots sont dans ce document;
et rechercher des documents consiste pour l'internaute
à écrire une requête sous forme de quelques mots, et pour le
moteur à lui renvoyer les URL classées des documents contenant
ces mots.
Le mot est bien inscrit dans l'écriture alphabétique des
langues occidentales (sauf en finnois, et sauf les mots
composés en anglais, en allemand) ; de plus le mot est
variable (nombre, cas), et plusieurs formes correspondent à un
même sens. Par exemple, si on recherche war, on n'obtient pas
les documents contenant wars ou wargame.
Mais en chinois ou en japonais, les mots ne sont pas délimités
dans l'écriture, mais reconstitués par le lecteur. Comment les
documents en chinois sont-ils indexés ? Les documents sont
indexés par des suites de n lettres (on dit n-grammes), n
étant compris entre 1 et 4 pour le chinois.
Travail réalisé l'an dernier
Le sujet de l'an dernier avait un but exploratoire : comment
repenser la problématique des moteurs de recherche sans
utiliser le concept de mot, donc en indexant les documents de
langues à écriture alphabétique comme les langues à
idéogrammes telles que le chinois : par n-grammes.
Ces explorations ont montré que l'indexation par n-grammes
permet de retrouver des documents qui contiennent les mots
demandés et aussi leurs variantes (war demandé -> wars et
wargame aussi obtenus), ou une partie des mots demandés (wars
demandé -> war aussi obtenu), ce qui comble des silences de
l'indexation par mots, mais au prix de beaucoup de bruit (des
documents non pertinents).
Quelques expériences de méthodes hybrides (indexation par
n-grammes et par mots) ont été faites ; cette piste bénéficie
des avantages des 2 méthodes et semble prometteuse.
C'est cette piste que vous allez explorer cette année.
Objectifs
Explorer expérimentalement des méthodes hybrides
d'indexation et de recherche par mot et par n-grammes, pour
des documents de langues d'écriture alphabétique.
Évaluer comparativement la méthode par mot et les
méthodes hybrides par mot et par n-grammes.
Protocole expérimental :
télécharger des documents (100, puis 1000) ;
les indexer par la méthode hybride expérimentée ;
faire des expérimentations de recherche et classement
de documents à partir de différents types de requête ;
faire ces expérimentations sur des langues alphabétiques
variées (français, anglais, allemand, finnois, ...) (si on ne
connait pas la langue, on a besoin d'un locuteur pour écrire
des requêtes, et juger de la pertinence des réponses) ;
mettre en place la méthode classique d'indexation par
mots pour faire des évaluations comparatives sur les mêmes
collections de documents ;
pour chaque requête, pour chaque méthode, évaluer la
pertinence des 10 premiers documents obtenus ;
Le jeu video est en plein développement et on voit apparaître
des joueurs professionnels, sponsorisé par des équipementiers
d'informatique ou des éditeurs de jeux. Les services aanexes
proposés au joeur connaissent le même engouement, Nous
souhaitons proposer des méthodes d'aide à la décision qui
permettent de produire des recommandations stratégiques.
Warcraft III est un jeu de stratégie en temps réel. DotA est
un mode opposant des équipes de héros. Chaque héros possède
des caractéristiques uniques et peut être équipé d'items qui
les améliorent.
Copie d'écran de Warcraft
Objectifs
Pendant la rediffusion d'un match de DotA, vous effectuez
l'acquisition vidéo de la mini-carte, située en bas à gauche de
l'écran. À partir de cette vidéo, vous extrayez la position au cours
du temps de chaque joueur, créature et bâtiment du jeu pour produire
un relevé XML du match.
Agrandissement de la mini carte
Technologies
Vidéo et image, acquisition d'une portion de l'écran,
technologies XML en particulier PMML (Predictive Model Markup
Language). Une motivation et une bonne connaissance du jeu
vidéo ou du sport est un atout pour ce projet.
libre
18. Traitement linguistique des appels à contribution pour les conférences scientifiques
La présentation d'articles lors de conférence est la base de
l'économie du chercheur. Abonné à des listes de diffusion, celui-ci
reçoît quotidiennement plusieurs appels à contribution au format
texte, qui ne le concernent pas toujours.
Il n'existe pas à ce jour de format standard pour un appel à
contribution et l'extraction d'information doit être réalisée
à l'aide de techniques de traitement automatique du
langage. Lorsque cette étape est réalisée, un
site internet rassemblant ces appels est simple à concevoir.
Travail demandé
Ce projet est découpé en plusieurs parties, à moduler suivant la
formation, la motivation et le niveau de l'étudiant :
Proposer une chaîne de traitement linguistique d'un appel
à contribution pour étiqueter le titre de la conférence, les lieux,
dates, mot-clés, membres du comité de programme. Cette chaîne est
élaborée à l'aide de LinguaStream, qui propose une interface graphique
et la conception de traitement à l'aide d'enchaînement de tâches
élémentaires. Les résultats sont indexés dans une base de données XML
eXist.
Réaliser un site internet en XQuery sous eXist ou avec un
système de gestion de contenus comme typo3 qui présente les appels à
contribution.
Évaluer les performances de la chaîne d'extraction
d'information et proposer une structuration du système
d'information et des connaissances potentielles.
Technologies
Expressions régulières, traitement automatique de la langue,
grammaires, technos XML.
Il faut pour la première partie de ce projet un étudiant
motivé par l'extraction d'information dans des corpus de
texte. C'est la tâche préliminaire essentielle à la qualité du
service attendu.
libre
19. Recommandation pour la publication scientifique
La publication d'articles lors de conférence ou dans des revues
est la base de l'économie du chercheur. Il existe cependant de
nombreuses conférences et journaux qu'il est difficile pour le
chercheur de connaître exhaustivement. La recommandation de
soumission pour la publication scientifique soulage ce travail.
Cette information est cependant potentiellement disponible
puisque de nombreux sites internet recensent les publications
(google Scholar,
CiteSeer, DBLP). À partir d'un auteur, on peut
reconstituer les endroits où il publie et les collègues avec
lesquels il publie régulièrement.
Travail demandé
Ce projet est découpé en deux parties, à moduler suivant la formation, la motivation et le niveau de l'étudiant :
En utilisant les ressources d'internet et l'indication de
quelques auteurs phares d'un domaine scientifique, vous
reconstituez le réseau social correspondant et les sources
récurrentes de publication.
Des techniques de fouille de données permettent la
sélection de l'information pertinente.
Créé voici deux ans, cameravideo.net dispose de forums très
actifs (environ 100.000 visiteurs/mois et un million de pages
vues) et aborde les différents thèmes qui tournent autour de
la vidéo numérique (de l'achat de matériel, montage,
realisation de films, post-production) .
On constate ce qui arrive à tous les forums, une masse
d'information tombe dans l'oubli faute de classification et de
structuration.
Site caméra vidéo
Travail demandé
On souhaite structurer l'information contenue dans les forums
afin de proposer à l'utilisateur un accès plus
ergonomique. Pour cela, le corpus des forums subit un
traitement linguistique à l'aide de Linguastream, une
plateforme graphique pour le TAL (les TP de fouille de données
s'appuient également sur Linguastream). À l'issue de ce
traitement, les mots ou groupes de mots émergents sont
capturées et structurent l'information.
Ce projet peut être prolongé en stage.
Technologies
Fondamentaux du traitement automatique des langues,
Linguastream, fouille de données. Pour réaliser ce projet, il
faut être motivé pour la prise en charge de gros corpus de
texte et la réalisation d'une chaîne de fouille de données.
Il s'agit de réaliser entièrement un système de traduction
automatique par l'exemple et par analogie en appliquant les
principes de la conception du logiciel et de la programmation
objet. En plus, il s'agit de réaliser une interface de
traduction en ligne et de traduction de fichiers de quelques
centaines de lignes, avec évaluation automatique de la qualité
de traduction.
Le principe de traduction par l'exemple et par analogie est le suivant. Pour traduire la phrase Il traversait la rivière à la nage. on recherche des phrases similaires ou pas, dont on connaît à l'avance des traductions. Par exemple :
Elle traverse la rivière à la nage. She swims across the river.
Il chantait. He sang.
Elle chante She sings.
De ces trois phrases particulières, on peut dire que « Il
traversait la rivière à la nage. » est à la phrase
« Elle traverse la rivière à la nage. »
comme la phrase « Il chantait. ». est à la
phrase « Elle chante. ».
En transposant en anglais, on peut dire que la phrase
recherchée doit être à la phrase « She swims across
the river. » comme la phrase « He
sang. » est à la phrase « She
sings. »
La seule phrase correspondant à cette définition est :
« He swam across the river. », qui est bien
une traduction de « Il traversait la rivière à la
nage. ».
Spécification complète du système à l'aide de diagrammes UML complets.
Implémentation complète du système en Python (langage imposé).
Spécification et implémentation de l'interface de traduction et de test.
Démonstration avec des jeux de tests de campagnes internationales d'évaluation de la traduction automatique.
Apport attendu
Le système peut être testé sur plusieurs jeux de tests de campagnes
internationales d'évaluation de la traduction automatique. Ces jeux de
tests comprennent des données d'entraînement, des données de
développement et des données de tests avec leur références. On attend
la mise en place d'une interface graphique pour lancer des
démonstrations avec des jeux de tests stocker les résultats et les
comparer automatiquement. Cela implique l'intégration de modules
existants d'évaluation automatique.
Des données nouvelles peuvent être obtenues par
alignement sous-phrastique au moyen de programmes
disponibles sur le web ou mis au point au laboratoire
GREYC. On attend la mise en place d'une interface graphique
pour lancer des démonstrations avec des jeux de tests
incluant ou pas certains des alignements ainsi obtenus afin
de comparer les performances.
Diverses heuristiques sont déjà mises en place dans le
système actuel (écrit en C) pour restreindre l'espace de
recherche. On attend la mise en place d'une interface de
paramétrage pour pouvoir mesurer automatiquement la
contribution des diverses heuristiques.
La synthèse de textures doit permettre de retoucher une image
après suppression ou effacement d'une partie afin de garder une bonne
apparence visuelle.
Objectifs
Il s'agit dans une première phase d'implémenter l'algorithme de synthèse de
texture, et de le tester ensuite sur des images artificielles.