Data Lake


Un lac de données (data lake en anglais) est un type de référentiel de données qui stocke des ensembles importants et variés de données brutes dans leur format natif. Les lacs de données permettent de conserver une vue non raffinée des données. Ils deviennent une stratégie de gestion plus courante pour les entreprises qui souhaitent disposer d’un vaste référentiel holistique pour leurs données.

Un stockage volumineux des données

Les données brutes sont des données qui n’ont pas encore été traitées dans un but précis. Dans un data lake, elles ne sont pas définies tant qu’elles ne sont pas interrogées. Les spécialistes des données peuvent y accéder lorsqu’ils en ont besoin en utilisant des outils d’analyse plus avancés ou la modélisation prédictive.

Toutes les données sont conservées lorsqu’on utilise un lac de données ; aucune d’entre elles n’est supprimée ou filtrée avant d’être stockée. Les données peuvent être utilisées à des fins d’analyse dans un avenir proche ou lointain, voire jamais. Elles pourraient également être utilisées de nombreuses fois à des fins différentes, ce qui n’est pas le cas lorsque les données ont été affinées dans un but précis car cela rend difficile leur réutilisation d’une manière différente.

Une expression intimement liée à Hadoop

Le terme lac de données est souvent associé au stockage d’objets orienté Hadoop. Dans un tel scénario, les données d’une organisation sont d’abord chargées dans la plate-forme Hadoop, puis les outils d’analyse commerciale et d’exploration de données sont appliqués aux données où elles résident sur les nœuds de cluster Hadoop d’ordinateurs de base.

À l’instar du big data, l’expression data lake est parfois décriée comme étant simplement une étiquette marketing pour un produit prenant en charge Hadoop. Cependant, de plus en plus, le terme est utilisé pour décrire tout pool de données volumineux dans lequel le schéma et les exigences en matière de données ne sont pas définis tant que les données ne sont pas interrogées.

Data lake décrit donc une stratégie de stockage de données, pas une technologie spécifique, bien qu’il soit fréquemment utilisé en conjonction avec une technologie spécifique (Hadoop). On peut dire la même chose du terme entrepôt de données, qui, bien qu’il se réfère souvent à une technologie spécifique (base de données relationnelle), décrit en fait une vaste stratégie de gestion des données.

Lac de données vs entrepôt de données

Les lacs de données et les entrepôts de données sont deux stratégies différentes pour stocker des données volumineuses. La distinction la plus importante entre eux est que dans un entrepôt de données, le schéma des données est prédéfini ; c’est-à-dire qu’il existe un plan pour celles-ci dès leur entrée dans la base de données. Dans un lac de données, ce n’est pas nécessairement le cas. Un lac de données peut héberger des données structurées et non structurées, et n’a pas de schéma prédéterminé. Un entrepôt de données gère principalement des données structurées, et dispose d’un schéma prédéterminé pour celles qu’il héberge.

Aller en haut