RIST

Revue d'Information Scientifique et Technique

AraCovid19-SSD: Arabic Covid-19 Sentiment And Sarcasm Detection Dataset

Coronavirus disease (COVID-19) is an infectious respiratory disease that was first discovered in late December 2019, in Wuhan, China, and then spread worldwide causing a lot of panic and death. Users of social networking sites such as Facebook and Twitter have been focused on reading, publishing, and sharing novelties, tweets, and articles regarding the
newly emerging pandemic.
A lot of these users often employ sarcasm to convey their intended meaning in a humoristic,funny, and indirect way making it hard for computer-based applications to automatically understand and identify their goal and the harm level that they can convey.
Motivated by the emerging need for annotated datasets that tackle these
kinds of problems in the context of COVID-19, this paper builds and releases AraCOVID19-SSD, a manually annotated Arabic COVID-19 sarcasm and sentiment detection dataset containing 5,162 tweets.
To confirm the practical utility of the built dataset, it has been carefully analyzed and tested using several classification models.

Auteurs : Mohamed Seghir Hadj Ameur, Hassina Aliane

Téléchargement : PDF

Induction de sens des mots Arabes dans un espace vectoriel des mots.

Nous décrivons dans cet article, une nouvelle approche d’induction de sens des mots pour la langue Arabe dans un espace vectoriel des mots. Les modèles de représentation vectorielles suscitent un grand intérêt de la part de la
communauté de recherche TALN. Ces modèles sont fondés sur l’hypothèse distributionnelle qui prend en compte le « contexte » d’un mot cible. Ces modèles mappent tous les mots du vocabulaire à un espace vectoriel et fournissent ensuite une description sémantique des mots d’un corpus en tant que vecteurs numériques. Néanmoins, un problème bien connu de ces modèles est qu’ils ne peuvent pas gérer la polysémie. Nous présentons un nouveau modèle simple qui utilise les word embeddings que nous expérimentons pour la tâche non supervisée de l’induction de sens des mots arabes. Les
modèles sont développés à l’aide des outils GenSim pour SKIP-Gram et CBOW. Le modèle permet ensuite de créer un indexeur basé sur la similarité cosinus en utilisant l’indexeur Annoy, qui est plus rapide que la fonction de similarité de
GenSim. Un ego-network est utilisé pour étudier la structure des relations d’un individu et permet de construire un graphe de mots associés provenant des voisins locaux. Les différents sens des mots sont générés en utilisant du clustering de graphes. Nous avons travaillé avec deux corpus d’information: OSAC et AraCorpus ainsi qu’un modèle de Word Embeddings existant AraVec. Ensuite, nous avons expérimenté les différents modèles pour l’induction du sens des mots et nous avons obtenu des résultats prometteurs.

Auteurs : Djaidri Asma, Aliane Hassina, Azzoune Hamida

Téléchargement : PDF

Impact of Stemming Techniques on Topic Segmentation of Arabic Texts

In this paper, we propose a topic segmentation approach for Arabic texts, through which we have studied the effect of the application of two different stemming techniques, root-based and light stemming. The approach we propose is global,distributional, non-linear. It is global since it considers a comparison of all text segments and not only neighboring segments. It is non-linear in the sense that it can rank segments situated in different positions in text in same groups (subtopics). The approach is based on the calculation of lexical cohesion between segments basing on a combination of repetitive lexical semantic criteria. For terms weighting, we have used OKAPI (BM25) measure after an operation of stemming using both root-based stemming and light stemming. The semantic repetitions of terms are calculated using
Arabic WordNet lexical database. A similarity matrix is created where rows and columns are the text segments and the elements of the matrix are COSINE scores between pairs of segments. Subtopics are finally formed using a strict
clustering technique in order to eliminate redundancy in the segment groups. For experimentation, we tested our system on a collection of economic and web news articles using Recall, Precision, F-measure and WindowDiff. The obtained
results are very promising.

 

Auteurs : Belahcene Bahloul , Hassina Aliane , Mohamed Benmohammed

Téléchargement : PDF

Une Ontologie pour l’Indexation et la Recherche d’Information Multilingue

Nous proposons dans cet article une approche pour l’indexation et la recherche d’information pour un corpus trilingue : arabe, français et anglais. Le système proposé est fondé sur un formalisme de représentation de connaissances, plus précisément les graphes sémantiques [4] qui supportent une ontologie de domaine. Les documents et les requêtes sont aussi représentés dans ce formalisme. L’ontologie du domaine constitue le noyau du système et est utilisée aussi bien pour l’indexation que pour la recherche. Le système d’indexation utilise une méthode d’extraction qui est basée sur le calcul de segments répétés en utilisant des filtres linguistiques. Quant au système de recherche, il est fondé sur la comparaison de graphes de requêtes et de graphes de documents.

PDF