Utilisateur:OUMMATNAT/Brouillon

En informatique décisionnelle (business intelligence), on parle d'une dimension à évolution lente (slowly changing dimension) lorsque les données d'une dimensions changent au fil du temps, soit occasionnellement, soit de façon continue.

Ces modifications se caractérisent par le fait qu'un attribut (informatique) ou un membre d'une dimension change de valeur.

  • Un produit peut changer de catégorie, de nom ...
  • Un client peut changer d'adresse, de statut marital …

Les tables de dimensions comprendront de nombreux attributs (descriptif, des valeurs catégorielles ou discrètes , de qualité …).

Il existe différents types de gestion des modifications temporelles.

Définitions

modifier

Les dimensions fournissent le contexte des faits.

La dimension temporelle existe dans tous les modèles, puisque toujours nécessaire à décrire un fait. (Dimension : Date)

La dimension temporelle est une dimension que l'on dit à rôles multiples (role playing).

Les tables de faits contiennent de nombreuses lignes, elles vont nous permettre de suivre toutes les évolutions d'un événement. Mais aussi nous permettre de faire des requêtes plus précises voir imprévues.

Ce sont des dimensions à évolution lente. . (Slowly Changing Dimensions SDC)

Méthodes d'historisation

modifier

Selon Ralph Kimball, il est possible de gérer les dimensions à évolution lente en choisissant entre ces solutions, qui assureront l'intégrité référentielle à un niveau différent suivant le choix de gestion.

SDC : Slowly changing dimension

  • SDC Type 1 : Écraser l'ancienne valeur par la nouvelle ;
Id_CodeProduit Lib_ProduitC Lib_ProduitL Unit_Cond PUHT TVA
123 ABC Abricot sec CA 18,20 5,5

devient suite à un changement de tarif

Id_CodeProduit Lib_ProduitC Lib_ProduitL Unit_Cond PUHT TVA
123 ABC Abricot sec CA 21,00 5,5


  • SDC Type 2 : Ajouter une ligne dans la table de dimension pour la nouvelle valeur;
Id_CodeProduit Lib_ProduitC Lib_ProduitL Unit_Cond PUHT TVA Version
123 ABC Abricot sec CA 18,20 5,5 0
124 ABC Abricot sec CA 21,00 5,5 1

ou

Id_CodeProduit Lib_ProduitC Lib_ProduitL Unit_Cond PUHT TVA Start_Date End_Date
123 ABC Abricot sec CA 18,20 5,5 01-01-2000-00:00:00 31-12-2014-00:00:00
124 ABC Abricot sec CA 21,00 5,5 01-01-2105-00:00:00 Null


  • SCD Type 3 : Avoir deux colonnes dans la table de dimension permettant de faire référence à l'ancienne et à la nouvelle valeur ;
Id_CodeProduit Lib_ProduitC Lib_ProduitL Unit_Cond PUHT TVA Date_Changement PUHT_ENCOURS
123 ABC Abricot sec CA 18,20 5,5 31-12-2014:00:00:00 21,00
  • SDC Type 4 : Combinaison des types 2 et 3
Id_CodeProduit Rang Lib_ProduitC Lib_ProduitL PUHT_encours PUHT_HISTO Date_Début End_Date Flag
123 1 ABC Abricot sec 21,00 15,20 01-01-1998-00:00:00 31-12-1999-00:00:00 N
123 2 ABC Abricot sec 21,00 18,20 01-01-2000-00:00:00 31-12-2014-00:00:00 N
123 3 ABC Abricot sec 21,00 21,00 01-01-2015-00:00:00 31-12-2999-23:59:59 Y


Avantages et inconvénients des différentes méthodes d’historisation

modifier
  • SDC type 1 : impossible de faire des analyses sur les anciennes valeurs;

Exige de mettre à jour les données agrégées avec l'ancienne valeur.

A utiliser seulement pour faire des corrections et lorsque l'ancienne valeur n'est pas significative pour le contexte de l'organisation.

  • SDC type 2 : la table comprendra un enregistrement supplémentaire à chaque changement avec des dates de début et de fin de validité;

Permet de faire des analyses sur les historiques.

Approche la plus employé surtout si les évolutions sont aussi à analyser et sont une information en soi.

  • SDC type 3 : la profondeur de l'historique ne permet qu'un seul changement;

Seul une comparaison entre deux valeurs est possible.

Redéfinir la dimension est possible par l'ajout d'une colonne supplémentaire.

  • SDC type 4 : ce type d'historisation va permettre de remonter aux données sur toutes les périodes recherchées.

Autres possibilités pour définir des dimensions et palier aux difficultés rencontrées

modifier
  • SDC type 5 et 6

Lorsqu'une dimension comprend des attributs que peuvent changer souvent et sont souvent à analyser, il est possible de créer des mini-dimensions qui comprendront les rubriques potentiellement volatiles.

Exemple : le profil démographique des clients.

Il nous faudra aussi définir les dimensions poubelles (Junk dimensions), la liste des attributs qui ne correspondent à aucune dimension. Les regrouper dans une table.

Définir également les tables sans fait (factless tables), correspondent à des évènements qui n'ont pas de mesures quantifiables ou présentant une mesure de type vrai/faux.

Définir également les tables de pont (bridge table), pour éviter de répéter la même information pour chaque ligne d'une table. Elles peuvent être pré-générées s'il y a peu de combinaison possible.

De la conception logique va dépendre la performance des réponses aux requêtes demandées par l'utilisateur et la facilité d'utilisation dans la construction de chaque demande. La puissance analytique du Data Warehouse va dépendre aussi de la richesse et de la qualité des attributs dimensionnels.

Notes et références

Bibliographies

modifier

(en) Ralph KIMBALL, The Data Warehouse Toollkit, Broché, .

E. Ferragu, (2013). Modélisation des Systèmes d'Information Décisionnels Paris, Vuibert.

Voir aussi

modifier