Que sont les « data lakes »?

Le concept de « data-lakes » ou lacs de données est apparu il y a quelques mois pour désigner la manière dont les données informatiques seraient désormais stockées à travers le monde. Après le stockage « classique » de données de type ODS ou « infocentres », les entrepôts de données de type « data warehouse » et enfin le Big Data, il semble que le concept de data-lakes présente certains avantages en termes de souplesse.

data lakes

Lacs de données : qu’est-ce que c’est ?

Traditionnellement, les données informatiques opérationnelles de l’entreprise sont stockées au moyen de bases de données, structurées au moyen de « relations ». Ces relations permettant dès lors d’interroger la structure et de naviguer dans celle-ci.

L’inconvénient de ce procédé régulièrement mis en avant par les professionnels, est l’extrême rigidité du système : en effet, les modifications d’une structure de ce type peuvent être complexes, et parfois impossibles à appliquer sans risquer de perdre une partie des données. Sans parler, évidemment, du coût en ressources machines.

Avantages et inconvénients

C’est ainsi que le concept de lacs de données entre en jeu : le principe est intéressant pour les entreprises qui ont à gérer un gros volume de données, sans savoir à l’avance quelle structure employer pour utiliser et analyser ces données.

A l’inverse d’une hiérarchie verticale comme on en trouve dans les data warehouses, l’idée avec un lac de données et de conserver les données sur un même plan, schématiquement plat et sans structure. Le revers de la médaille réside dans l’extrême consommation des ressources machines, à chaque analyse. Le data-lake ne serait donc pas adapté à des analyses répétitives, qui nécessitent par définition de recalculer la structure de données à chaque nouvelle étude.

Ce contenu a été publié dans Technologie. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *