Un data lake, qu'est-ce que c'est ?

Publié 16 septembre 2019 •

Un data lake est un type de référentiel de données qui permet de stocker de gros volumes de données brutes et hétérogènes dans leur format natif. Les data lakes vous permettent de conserver une vision brute de vos données. Ils sont de plus en plus utilisés comme stratégie de gestion des données par les entreprises qui souhaitent posséder un référentiel de données plus vaste et global.

Les données brutes sont des données qui n'ont pas encore été traitées dans un but précis. Les données contenues dans un data lake ne sont pas définies tant qu'elles n'ont pas fait l'objet d'une demande. Les spécialistes des données peuvent accéder aux données brutes lorsqu'ils en ont besoin, à l'aide d'outils d'analyse avancés ou d'un système de modélisation prédictive.

Dans un data lake, toutes les données sont conservées : aucune n'est supprimée ou filtrée avant le stockage. Ces données peuvent être utilisées à des fins d'analyse, à court ou moyen terme, ou même jamais.Elles peuvent également être utilisées à de nombreuses reprises à des fins variées, alors que des données transformées sont destinées à un emploi spécifique et sont donc difficilement réutilisables dans un autre contexte.

L'expression anglaise « data lake » a été introduite par James Dixon, directeur technique de Pentaho. Le terme « lake », lac en français, convient parfaitement pour décrire ce type de référentiel de données, car celui-ci permet de stocker un ensemble de données dans leur état brut, à l'image d'un volume d'eau qui n'aurait pas été filtré ni traité. Les données qui alimentent ce lac proviennent de sources diverses et y sont stockées dans leur format d'origine.

Les données stockées dans un data lake ne sont pas transformées jusqu'à ce qu'on ait besoin de les analyser. Un schéma est alors appliqué pour qu'elles puissent être analysées. Cette opération est appelée « schema on read » (schéma à la lecture), car les données restent brutes jusqu'à leur utilisation.

Les data lakes permettent aux utilisateurs d'accéder aux données et de les parcourir à leur manière, sans avoir à les déplacer d'un système à un autre. Ils permettent aussi d'obtenir des tendances et des rapports au cas par cas, plutôt que d'effectuer régulièrement un rapport d'analyse à partir d'une autre plateforme ou d'un autre type de référentiel de données. Cependant, en cas de besoin, les utilisateurs peuvent appliquer un schéma ou recourir à l'automatisation pour dupliquer un rapport.

Pour assurer la disponibilité et l'accessibilité des données, tout data lake doit bénéficier d'une stratégie de gouvernance et de maintenance continue. Sans cela, vous risquez de rendre vos données inutiles, inaccessibles, encombrantes, coûteuses et inutilisables. Ces data lakes, auxquels les utilisateurs ne peuvent plus accéder, sont qualifiés de « data swamps » (marécages de données).

En savoir plus sur le stockage des données

L'architecture du data lake est plate, car les données peuvent être non structurées, semi-structurées ou structurées et provenir de différentes sources dans l'entreprise. Les entrepôts de données, quant à eux, stockent les données dans des fichiers ou des dossiers. Un data lake peut aussi bien être hébergé sur site que dans le cloud.

Grâce à leur architecture, les data lakes offrent une grande évolutivité, jusqu'à plusieurs exaoctets. Il s'agit d'un avantage important, car lorsque vous créez un data lake, vous ne connaissez généralement pas le volume de données qui y sera stocké. Les systèmes de stockage de données traditionnels ne peuvent pas évoluer de la sorte.

Cette architecture profite aux data scientists qui peuvent miner et explorer les données de l'entreprise, les partager, les recouper, y compris à partir de données hétérogènes issues de différents domaines, afin d'obtenir de nouvelles tendances et informations. Ils peuvent également profiter des solutions d'analyse du Big Data et de l'apprentissage automatique pour analyser les données contenues dans un data lake.

Même si les données ne disposent pas d'un schéma fixe avant leur stockage dans le data lake, une stratégie de gouvernance reste essentielle pour éviter que votre data lake ne se transforme en data swamp. Et pour assurer leur accessibilité ultérieure, il faut associer des métadonnées aux données lors de leur stockage dans le data lake.

Améliorer la gestion des applications d'IA/AA

Dans cette série de webinars, découvrez le point de vue d'experts concernant la simplification du déploiement et de la gestion du cycle de vie des applications d'intelligence artificielle/apprentissage automatique (IA/AA) afin de créer et partager plus rapidement des modèles d'AA et des applications d'IA.

Voir les webinars en replay

Grâce aux solutions ouvertes de stockage logiciel développées par Red Hat, vous êtes en mesure de travailler davantage et d'accélérer la croissance de votre entreprise en ayant la garantie que vos données, qu'il s'agisse de documents financiers importants ou de fichiers multimédias, sont stockées en toute sécurité.

Avec une solution de stockage logiciel évolutive et économique, vous pouvez analyser de grands data lakes pour obtenir de meilleures informations métier. Les solutions de stockage logiciel de Red Hat sont Open Source et profitent des innovations de toute une communauté de développeurs, de partenaires et de clients. Vous contrôlez ainsi exactement la façon dont votre système de stockage est formaté et utilisé, en fonction des charges de travail, des environnements et des besoins spécifiques de votre entreprise.

Découvrir les solutions de stockage de Red Hat

Keep reading

Découvrez ce qu'est le stockage logiciel et apprenez à déployer une solution de stockage logiciel Red Hat qui vous permettra de gérer, stocker et partager des données selon vos besoins.

Le stockage dans le cloud est l'organisation des données stockées dans un emplacement accessible depuis Internet par toute personne qui dispose d'une autorisation. Apprenez-en davantage sur son fonctionnement.

Les services de données sont des ensembles de petites fonctions indépendantes et faiblement couplées qui permettent d'améliorer, d'organiser, de partager ou de calculer des informations recueillies et enregistrées dans des volumes de stockage de données.

En savoir plus sur le stockage

Produits

Système de stockage logiciel qui héberge les données de façon permanente en parallèle de la mise en route et de l'arrêt des conteneurs et entre plusieurs environnements.

Système de stockage logiciel Open Source et hautement évolutif qui gère efficacement des pétaoctets de données.

Ressources

Cloud hybride : les solutions derrière la plateforme Red Hat

Produits de plateforme

Essayer et acheter

À la une

Par catégorie

Par type d'entreprise

Par client

Services

Formations et certifications

À la une

Thèmes

Articles

À découvrir également

Pour nos clients

Pour nos partenaires

À propos de Red Hat

Open Source

Pour en savoir plus

Communautés

Recommandations

Sélectionner une langue

Sélectionner une langue

Améliorer la gestion des applications d'IA/AA

Produits

Articles liés

Ressources

LIVRE NUMÉRIQUE

ÉTUDE DE CAS

LIVRE BLANC

RAPPORT D'ANALYSTE

PRÉSENTATION DE TECHNOLOGIE

Produits

Outils

Essayer, acheter et vendre

Communication

À propos de Red Hat

Sélectionner une langue

Red Hat legal and privacy links

Red Hat legal and privacy links