RIST

Revue d'Information Scientifique et Technique

S-TILDE: Spatial Top- down Induction Logical DEcision tree

Ce qui caractérise le data mining spatial est la nécessité de prendre en compte les interactions des objets dans l’espace. Les méthodes classiques du data mining sont mal adaptées pour ce type d’analyse. Nous proposons dans cet article une approche basée sur la programmation logique inductive. Elle se base sur deux idées. La première consiste à matérialiser ces interactions spatiales dans des tables de distances, ramenant ainsi le data mining spatial au data mining multi-tables. La seconde transforme les données en logique du premier ordre et applique ensuite la programmation logique inductive. Une nouvelle méthode d’arbre de décision spatial, basée sur l’approche proposée et baptisée S-TILDE, est présentée dans cet article. Cet article présentera cette approche. Il décrira son application à la classification supervisée par arbre de décision spatial. Il présentera aussi les expérimentations réalisées et les résultats obtenus sur l’analyse de la contamination des coquillages dans la lagune de Thau.

Document joint:

pdf3

DATA MINING SPATIAL UN PROBLEME DE DATA MINING MULTI-TABLES

La principale caractéristique du data mining spatial est qu’il considère les relations spatiales. Ces relations sont à l’origine implicites et nécessitent des jointures spatiales complexes et coûteuses sur des critères spatiaux pour être exhibées. Nous avons proposé dans nos travaux antérieurs de les rendre explicites en utilisant une structure secondaire dite ²index de jointure spatiale² Erreur ! Source du renvoi introuvable.. L’idée est de pré-calculer les relations spatiales exactes entre les localisations de deux collections d’objets spatiaux et de les stocker dans une table secondaire de type (objet1, objet2, relation spatiale). Dès lors, les relations spatiales sont traduites dans un schéma relationnel
classique et les jointures spatiales s’expriment par des jointures relationnelles via l’index de jointure spatiale. Outre le fait que cette jointure via l’index est bien plus performante qu’une jointure spatiale, cette organisation relationnelle ramène la data mining spatial à un cadre plus général, dit data mining multi-tables. Contrairement au data mining classique où les données en entrée sont représentées dans une table unique où chaque tuple constitue une observation à analyser, la data mining multi-tables traite des données organisées dans plusieurs tables et exploite les liens logiques entre ces tables.
Pour résoudre ce problème multi-tables et pour faire du data mining spatial, nous proposons, dans cet article, une approche en deux étapes. La première étape transforme, grâce à un opérateur CROISEMENT que nous proposons, la structure multi-tables des données en une table unique tout en gardant des informations sur le voisinage et les relation spatiales. L’idée de cet opérateur est de compléter, et non de joindre, la table à analyser par les données présentes dans les autres tables. La seconde étape applique une méthode traditionnelle de data mining. Cet article présentera cette approche et cet opérateur. Il décrira leur application à la classification supervisée par arbre de décision spatial et il présentera les expérimentations réalisées et les résultats obtenus sur l’analyse du risque d’accident routiers.

Document joint:

pdf7