RIST

Revue d'Information Scientifique et Technique

Traitement des mots inconnus par les systèmes d’étiquetage morpho-syntaxiques des textes arabes basés sur le modèle de Markov caché

L’étiquetage morpho-syntaxique des textes est un outil très important pour diverses applications dans le traitement du langage naturel, à savoir l’analyse morphologique et syntaxique des textes, et l’indexation et la recherche d’information, et la « vocalisation » des textes arabe et le modèle probabiliste des langues (modèle n-classe).
Ces systèmes, qui sont basés sur des lexiques de taille limitée, sont incapables de traiter les mots inconnus.

Document joint:

pdf6

Mesure d’audience d’un site Web : Utilisation du formalisme XML

L’objectif de ce travail est la conception et réalisation d’une application de mesure d’audience d’un site web en analysant son fichier log, le formalisme utilisé étant l’XML pour permettre la réorganisation et la facilitation de l’exploitation de ce dernier.
En effet un fichier log ne représente qu’une source de données brute difficilement utilisable, par contre les données dans un fichier XML sont bien structurées et leur manipulation est plus aisée. On commencera donc par enregistrer toutes les données, dont on a besoins, sous format XML ; afin de faciliter leur fouille et exploitation, dans une phase suivante.

Document joint:

pdf7