WEBREVIEW

A fully inflected Arabic verb resource constructed constructed from a lexicon of lemmas by using finite-state transducers

Nous décrivons un lexique complètement fléchi de 2,5 millions de formes verbales générées par des transducteurs à états finis. Le lexique est constitué de 15 400 entrées ou lemmes. Le lexique de ces verbes arabes est construit sur la base des schèmes de la grammaire traditionnelle. Cette ressource verbale est ensuite utilisée par un logiciel d’annotation morphologique du texte écrit en arabe. Un ajustement de l’implémentation de ces transducteurs a été spécialement crée afin de traiter les langues sémitiques. Ce système est également adapté pour générer des formes fléchies. Les ressources linguistiques peuvent être facilement mis-à-jour. Nous proposons une taxonomie de la flexion verbale qui augmente la lisibilité du lexique et la maintenabilité pour les locuteurs et linguistes arabes. La grammaire traditionnelle définit des classes de flexion verbales en utilisant des classes de schèmes et des classes de racines, liées à la nature de chacune des consonnes d’une racine trilitères. Les classes de schèmes verbaux sont clairement définies alors que les classes de racines sont complexes. Dans notre taxonomie, les classes de schèmes traditionnelles sont réutilisées et les classes de racines sont redéfinies de façon plus simple. Notre taxonomie fournit un schéma de codage simple des variations flexionnelles et des ajustements orthographiques dus à l’assimilation ou à l’agglutination d’une particule grammaticale. Nous avons testé et évalué notre ressource sur 10 000 occurrences voyellées de verbes extraites du corpus Nemlar et nous l’avons comparé à la ressource de Buckwalter. La couverture lexicale est de 99,9%. Un ordinateur portable a besoin de deux minutes pour générer et compresser les 2,5 millions de formes fléchies en 4 Méga-octets pour une recherche rapide. L’analyse d’un verbe prend 0,5 milliseconde.


Document joint


Auteur(s)

ALEXIS Amid Neme

 
| info visites 3372956

Suivre la vie du site fr  Suivre la vie du site Informatique, science de l’information et bibliothéconomie  Suivre la vie du site RIST  Suivre la vie du site Volume 20  Suivre la vie du site Numéro 02   ?

Creative Commons License