Entrepôt de données ou Datawarehouse




Définition d’un entrepôt de données ou Datawarehouse, souvent abrévié DW ou DWH. Un entrepôt de données est une base de données, souvent multidimensionnelle, stockant une importante quantité de données d’une entreprise ou une organisation, issues de systèmes informatiques et d’applications métiers hétérogènes (ERP, Comptabilité, Ventes, Marketing, Stocks, Ressources humaines, etc.).

 

Définition d’un Entrepôt de Données ou DataWareHouse

Un entrepôt de données stock des données de production pour permettre de les analyser, ces données opérationnelles proviennent des applicatifs métiers, donc de directions et de périmètres fonctionnels différents de l’entreprise ou de l’organisation. Un entrepôt a pour vocation d’offrir une vue transverse des activités d’une organisation.

 

Un entrepôt de données contient des données hiérarchisées et structurées

Les données sont alimentées depuis les bases de données opérationnelles et bases OLTP ou de production avec un logiciel de appelé ETL (Extract Transform and Load) qui est un logiciel de manipulation et de traitement de données qui permet de charger, de contrôler et de structurer les données sources tout en leur appliquant des règles de gestion bien précises. Les données d’un Data Warehouse transitent depuis les bases sources vers un ODS – Operational Data Store – Magasin de données opérationnelles – puis vers le DWH et enfin vers les DataMarts (Magasins de données).

 

Le magasin de données opérationnelles ou ODS pour Operationnal Data Store

Les données contenues dans l’ODS sont une simple copie des données des bases de production OLTP (On Line Transactional Processing). Elles sont issues de fichiers ou de connexions directes aux bases de données via des connecteurs (ODBC, OLE, JDBC,etc…)

 

La structuration des données dans l’entrepôt de données

Les données dans le DWH sont hiérarchisées via des axes d’analyses, historisées dans le temps et contrôlées par rapport à un référentiel d’entreprise avec une application de règles de gestion. Les données à ce stade sont composées des dimensions de l’entrepôt qui contiennent le référentiel et des tables de faits qui contiennent les données stockées proprement dites avec des montants ou KPI. Les dimensions sont aussi appelées des axes d’analyses. On parle à ce niveaux de bases de données OLAP (On Line Analytical Processing) aussi appelées cubes multidimensionnels.

 

Les données dans le magasin de données (Datamart)

Les données sont ensuite stockées dans des Datamarts ou magasins de données et regroupées par périmètres fonctionnels, elles constituent un sous-ensemble du Data Warehouse, et en quelque sorte une vue fonctionnelle sur un périmètre et des informations métiers plus précises. Une fois les données stockées dans l’entrepôt de données et les Datamarts, elles sont utilisées pour du Reporting Ad-Hoc comme Microsoft Excel ou d’autres outils utilisant des requêtes dynamiques, des tableaux de bords figés qui peuvent être opérationnels ou stratégiques.