QUE SONT LES « DATA LAKES »
Hébergement

QUE SONT LES « DATA LAKES »

Le concept de « data-lakes » désigne la manière dont les données informatiques seraient désormais stockées à travers le monde. Après le stockage « classique » de données de type ODS ou « infocentres », les entrepôts de données de type « data warehouse » et enfin le Big Data, il semble que le concept de data-lakes présente certains avantages en termes de souplesse.

Lacs de données : qu’est-ce que c’est ?

Traditionnellement, les données informatiques opérationnelles de l’entreprise sont stockées au moyen de bases de données, structurées au moyen de « relations ». Ces relations permettant dès lors d’interroger la structure et de naviguer dans celle-ci.

L’inconvénient de ce procédé régulièrement mis en avant par les professionnels, est l’extrême rigidité du système. En effet, les modifications d’une structure de ce type peuvent être complexes, et parfois impossibles à appliquer sans risquer de perdre une partie des données. Sans parler, évidemment, du coût en ressources machines.

data

 

Avantages et inconvénients

C’est ainsi que le concept de lacs de données entre en jeu. Le principe est intéressant pour les entreprises qui ont à gérer un gros volume de données, sans savoir à l’avance quelle structure employer pour utiliser et analyser ces données.

A l’inverse d’une hiérarchie verticale comme on en trouve dans les data warehouses, l’idée avec un lac de données et de conserver les données sur un même plan, schématiquement plat et sans structure. Le revers de la médaille réside dans l’extrême consommation des ressources machines, à chaque analyse. Le data-lake ne serait donc pas adapté à des analyses répétitives, qui nécessitent par définition de recalculer la structure de données à chaque nouvelle étude.

load