Jump to section

Un data lake, qu'est-ce que c'est ?

Copier l'URL

Un data lake est un type de référentiel de données qui permet de stocker de gros volumes de données brutes et hétérogènes dans leur format natif. Les data lakes vous permettent de conserver une vision brute de vos données. Ils sont de plus en plus utilisés comme stratégie de gestion des données par les entreprises qui souhaitent posséder un référentiel de données plus vaste et global. 

Les données brutes sont des données qui n'ont pas encore été traitées dans un but précis. Les données contenues dans un data lake ne sont pas définies tant qu'elles n'ont pas fait l'objet d'une demande. Les spécialistes des données peuvent accéder aux données brutes lorsqu'ils en ont besoin, à l'aide d'outils d'analyse avancés ou d'un système de modélisation prédictive.

Dans un data lake, toutes les données sont conservées : aucune n'est supprimée ou filtrée avant le stockage. Ces données peuvent être utilisées à des fins d'analyse, à court ou moyen terme, ou même jamais.Elles peuvent également être utilisées à de nombreuses reprises à des fins variées, alors que des données transformées sont destinées à un emploi spécifique et sont donc difficilement réutilisables dans un autre contexte.

L'expression anglaise « data lake » a été introduite par James Dixon, directeur technique de Pentaho. Le terme « lake », lac en français, convient parfaitement pour décrire ce type de référentiel de données, car celui-ci permet de stocker un ensemble de données dans leur état brut, à l'image d'un volume d'eau qui n'aurait pas été filtré ni traité. Les données qui alimentent ce lac proviennent de sources diverses et y sont stockées dans leur format d'origine. 

Les données stockées dans un data lake ne sont pas transformées jusqu'à ce qu'on ait besoin de les analyser. Un schéma est alors appliqué pour qu'elles puissent être analysées. Cette opération est appelée « schema on read » (schéma à la lecture), car les données restent brutes jusqu'à leur utilisation. 

Les data lakes permettent aux utilisateurs d'accéder aux données et de les parcourir à leur manière, sans avoir à les déplacer d'un système à un autre. Ils permettent aussi d'obtenir des tendances et des rapports au cas par cas, plutôt que d'effectuer régulièrement un rapport d'analyse à partir d'une autre plateforme ou d'un autre type de référentiel de données. Cependant, en cas de besoin, les utilisateurs peuvent appliquer un schéma ou recourir à l'automatisation pour dupliquer un rapport. 

Pour assurer la disponibilité et l'accessibilité des données, tout data lake doit bénéficier d'une stratégie de gouvernance et de maintenance continue. Sans cela, vous risquez de rendre vos données inutiles, inaccessibles, encombrantes, coûteuses et inutilisables. Ces data lakes, auxquels les utilisateurs ne peuvent plus accéder, sont qualifiés de « data swamps » (marécages de données).

L'architecture du data lake est plate, car les données peuvent être non structurées, semi-structurées ou structurées et provenir de différentes sources dans l'entreprise. Les entrepôts de données, quant à eux, stockent les données dans des fichiers ou des dossiers. Un data lake peut aussi bien être hébergé sur site que dans le cloud.

Grâce à leur architecture, les data lakes offrent une grande évolutivité, jusqu'à plusieurs exaoctets. Il s'agit d'un avantage important, car lorsque vous créez un data lake, vous ne connaissez généralement pas le volume de données qui y sera stocké. Les systèmes de stockage de données traditionnels ne peuvent pas évoluer de la sorte.

Cette architecture profite aux data scientists qui peuvent miner et explorer les données de l'entreprise, les partager, les recouper, y compris à partir de données hétérogènes issues de différents domaines, afin d'obtenir de nouvelles tendances et informations. Ils peuvent également profiter des solutions d'analyse du Big Data et de l'apprentissage automatique pour analyser les données contenues dans un data lake. 

Même si les données ne disposent pas d'un schéma fixe avant leur stockage dans le data lake, une stratégie de gouvernance reste essentielle pour éviter que votre data lake ne se transforme en data swamp. Et pour assurer leur accessibilité ultérieure, il faut associer des métadonnées aux données lors de leur stockage dans le data lake.

Améliorer la gestion des applications d'IA/AA

Dans cette série de webinars, découvrez le point de vue d'experts concernant la simplification du déploiement et de la gestion du cycle de vie des applications d'intelligence artificielle/apprentissage automatique (IA/AA) afin de créer et partager plus rapidement des modèles d'AA et des applications d'IA. 

Grâce aux solutions ouvertes de stockage logiciel développées par Red Hat, vous êtes en mesure de travailler davantage et d'accélérer la croissance de votre entreprise en ayant la garantie que vos données, qu'il s'agisse de documents financiers importants ou de fichiers multimédias, sont stockées en toute sécurité.

Avec une solution de stockage logiciel évolutive et économique, vous pouvez analyser de grands data lakes pour obtenir de meilleures informations métier. Les solutions de stockage logiciel de Red Hat sont Open Source et profitent des innovations de toute une communauté de développeurs, de partenaires et de clients. Vous contrôlez ainsi exactement la façon dont votre système de stockage est formaté et utilisé, en fonction des charges de travail, des environnements et des besoins spécifiques de votre entreprise.

Keep reading

ARTICLE

Red Hat, un partenaire de choix en matière de stockage

Découvrez ce qu'est le stockage logiciel et apprenez à déployer une solution de stockage logiciel Red Hat qui vous permettra de gérer, stocker et partager des données selon vos besoins.

ARTICLE

Le stockage dans le cloud, qu'est-ce que c'est ?

Le stockage dans le cloud est l'organisation des données stockées dans un emplacement accessible depuis Internet par toute personne qui dispose d'une autorisation. Apprenez-en davantage sur son fonctionnement.

THÈME

Comprendre les services de données

Les services de données sont des ensembles de petites fonctions indépendantes et faiblement couplées qui permettent d'améliorer, d'organiser, de partager ou de calculer des informations recueillies et enregistrées dans des volumes de stockage de données.