Bien cube, les données textuelles peuvent s'agréger !

La masse des données aujourd'hui disponibles engendre des besoins croissants de méthodes décisionnelles adaptées aux données traitées. Ainsi, récemment de nouvelles approches fondées sur des cubes de textes sont apparues pour pouvoir analyser et extraire de la connaissance à partir de documents. L'originalité de ces cubes est d'étendre les approches traditionnelles des entrepôts et des technologies OLAP à des contenus textuels. Dans cet article, nous nous intéressons à deux nouvelles fonctions d'agrégation. La première propose une nouvelle mesure de TF-IDF adaptative permettant de tenir compte des hiérarchies associées aux dimensions. La seconde est une agrégation dynamique permettant de faire émerger des groupements correspondant à une situation réelle. Les expériences menées sur des données issues du serveur HAL d'une université conﬁrment l'intérêt de nos propositions.

Mots clés

Base de connaissances Analyse de données Base de données

Domaines

Autre Base de données [cs.DB] Recherche d'information [cs.IR] Traitement du texte et du document

Fichier principal

BienCubeEGC2010.pdf (182.29 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Mathieu Roche : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00588562

Soumis le : mardi 2 avril 2019-17:31:57

Dernière modification le : mardi 12 mars 2024-10:45:22

Archivage à long terme le : mercredi 3 juillet 2019-17:26:03

Dates et versions

lirmm-00588562 , version 1 (02-04-2019)

Identifiants

HAL Id : lirmm-00588562 , version 1
IRSTEA : PUB00028439

Citer

Sandra Bringay, Anne Laurent, Pascal Poncelet, Mathieu Roche, Maguelonne Teisseire. Bien cube, les données textuelles peuvent s'agréger !. EGC: Extraction et Gestion des Connaissances, Jan 2010, Hammamet, Tunisie. pp.585-596. ⟨lirmm-00588562⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CIRAD AGROPARISTECH CNRS UNIV-MONTP3 IRSTEA TEXTE LIRMM AGROPOLIS TETIS MIPS UNIV-MONTPELLIER INRAE INRAEOCCITANIEMONTPELLIER MATHNUM

385 Consultations

165 Téléchargements