Un aperçu de Cloudera Data Platform (CDP)

Plate-forme de données Cloudera (CDP) est une plateforme de cloud computing pour les entreprises. Il fournit des outils en libre-service intégrés et multifonctionnels afin d’analyser et de centraliser les données. Il apporte la sécurité et la gouvernance au niveau de l’entreprise, le tout hébergé sur des déploiements publics, privés et multi-cloud. CDP est le successeur des deux précédentes distributions Hadoop de Cloudera : Cloudera Distribution de Hadoop (CDH) et Plateforme de données Hortonworks (HDP). Dans cet article, nous nous penchons sur la nouvelle offre Cloudera Big Data et en quoi elle diffère de ses prédécesseurs.

Aperçu

CDP propose une approche public-privé unique, des analyses de données en temps réel, des options de déploiement évolutives sur site/sur le cloud et cloud hybride, et une architecture axée sur la confidentialité. Selon son site officiel, CDP vous permet de :

  • Générez automatiquement des charges de travail lorsque cela est nécessaire et suspendez leur fonctionnement une fois terminé, et par conséquent contrôlez les coûts du cloud
  • Utilisation analytique et Apprentissage automatique pour optimiser les charges de travail
  • Affichage lignage des données de tous les clusters cloud et transitoires
  • Utilisez une seule fenêtre via des clouds hybrides et multi-clouds
  • Évoluez jusqu’à des pétaoctets de données et des milliers d’utilisateurs divers
  • Utilisez des environnements multi-cloud et hybrides pour centraliser le contrôle des données clients et opérationnelles

CDP est disponible en deux éditions : Cloud public CDP et Cloud privé CDP.

Cloud public CDP

CDP Public Cloud est un Plate-forme en tant que service (PaaS) qui est compatible avec une infrastructure cloud et transférable sans difficulté entre différents fournisseurs de cloud y compris des solutions privées comme OpenShift. CDP a été conçu pour être complètement hybride et multi-cloud, ce qui signifie qu’une plate-forme peut gérer tous les cas d’utilisation du cycle de vie des données, quel que soit l’emplacement ou le cloud, avec un modèle de sécurité et de gouvernance cohérent. CDP peut travailler avec des données dans divers contextes, y compris des clouds publics tels que AWS, Azuret GCP. En outre, il peut automatiquement augmenter et réduire les charges de travail et les ressources afin d’améliorer les performances et de réduire les coûts.

Services de cloud public CDP

Voici les principaux éléments qui composent le CDP Public Cloud :

  • Ingénierie des données

    CDP Data Engineering est une boîte à outils d’ingénierie de données tout-en-un. Construit sur Apache Spark, il permet de rationaliser ETL processus au sein des équipes d’analyse d’entreprise en permettant l’orchestration et l’automatisation avec Flux d’air Apache et fournit une surveillance de pipeline hautement développée, un débogage visuel et des outils de gestion étendus. Il a des environnements de charge de travail isolés et est conteneurisé, évolutif et facile à transporter.

  • Centre de données

    Centre de données CDP est un service qui permet des analyses à haute valeur ajoutée de l’Edge à l’IA. Streaming, ETL, datamartsles bases de données et l’apprentissage automatique ne sont que quelques-unes des tâches couvertes par le large éventail de charges de travail analytiques.

  • Entrepôt de données

    CDP Data Warehouse est un service qui permet CE pour fournir une expérience d’analyse en libre-service cloud native aux analystes BI. Les analyses de streaming, d’ingénierie de données et d’apprentissage automatique (ML) sont toutes entièrement intégrées dans CDP Data Warehouse. Il dispose d’un cadre unifié qui permet de sécuriser et de gouverner toutes vos données et métadonnées sur des clouds privés, publics multiples ou hybrides.

  • Apprentissage automatique

    CDP Machine Learning optimise les flux de travail ML en utilisant des outils natifs et complets pour déployer, servir et surveiller les modèles. Avec Cloudera Shared Data Experience (SDX) étendu pour les modèles, il régule et automatise la catégorisation des modèles, puis transfère facilement les résultats pour collaborer via des expériences CDP telles que Data Warehouse et Operational Database.

  • Visualisation de données

    Avec Cloudera Data Visualization, les utilisateurs peuvent modéliser des données dans l’entrepôt de données virtuel sans avoir à supprimer ou mettre à jour les structures ou les tables de données sous-jacentes, et interroger de grandes quantités de données sans avoir à charger constamment des données, ce qui permet d’économiser du temps et de l’argent.

  • Base de données opérationnelle

    L’expérience Cloudera Operational Database est une solution gérée qui résume l’instance de cluster sous-jacente en tant que base de données. Il évoluera automatiquement en fonction de l’utilisation de la charge de travail du cluster, et il sera en mesure d’améliorer les performances dans la même empreinte d’infrastructure et de résoudre automatiquement les problèmes opérationnels.

Architecture

Dans cette section, nous vous présentons l’ensemble des services disponibles sur CDP Public Cloud. Les composants présentés ici peuvent être utilisés indépendamment ou dans leur ensemble.

  • Centre de données
    • Management Console : service utilisé par les administrateurs CDP pour gérer les environnements, les utilisateurs et les services
  • Entrepôt de données
    • Catalogues de bases de données : une collection logique de définitions de métadonnées pour les données gérées, ainsi que le contexte de données qui va avec
    • Entrepôts virtuels : une instance de ressources de calcul qui équivaut à un cluster
  • Machine Learning : Mobiliser les espaces de travail pour le Machine Learning
  • Data Engineering (CDE est actuellement disponible uniquement sur AmazonAWS)
    • Environnement : un sous-ensemble logique de votre compte de fournisseur de cloud qui comprend un réseau virtuel particulier
    • Service CDE : le cluster Kubernetes de longue durée et les services qui gèrent les clusters virtuels
    • Cluster virtuel : un cluster auto-évolutif individuel avec ses propres plages de CPU et de mémoire
    • Job : code d’application, ainsi que les configurations et ressources spécifiées
    • Ressource : un ensemble défini de fichiers nécessaires à une tâche
  • Sécurité et gouvernance
    • Catalogue de données : comprenez, gérez, sécurisez et gouvernez les actifs de données
    • WorkLoad Manager : offre des informations pour vous aider à mieux comprendre les charges de travail que vous envoyez aux clusters gérés par Cloudera Manager.
    • Replication Manager : service pour copier et migrer les données des clusters CDH vers CDP Public Cloud.

Cloud privé CDP

Cloud privé CDP est conçu pour le déploiement de cloud hybride, permettant aux environnements sur site de se connecter aux clouds publics tout en maintenant une sécurité et une gouvernance cohérentes et intégrées. Le calcul et le stockage sont découplés dans le CDP Private Cloud, permettant aux clusters de ces deux d’évoluer indépendamment. Disponible sur un cluster CDP Private Cloud Base, Cloudera Shared Data Experience (SDX) offre une sécurité unifiée, une gouvernance, mais aussi une gestion des métadonnées. Les utilisateurs de CDP Private Cloud peuvent fournir et déployer rapidement les services Cloudera Data Warehousing et Cloudera Machine Learning, mais aussi les faire évoluer selon les besoins, à l’aide de la console de gestion.

Services de cloud privé CDP

Certains des composants du CDP Public Cloud, tels que le Machine Learning et le Data Warehouse, sont disponibles sur le CDP Private Cloud. En outre, il utilise une collection de moteurs analytiques couvrant le streaming, l’ingénierie des données, datamartsbase de données opérationnelle et science des données, afin de prendre en charge les charges de travail traditionnelles.

Architecture

Dans cette section, nous vous présentons différents services et composants disponibles pour le Private Cloud. Contrairement à l’offre Public Cloud, les composants sont beaucoup plus flexibles puisque l’utilisateur a plus de contrôle sur le déploiement du cluster.




cdp-arch

Architecture Cloudera Private Cloud (fournie par Cloudera, Inc.)

  • Base en PVC CDP
    • Cloudera Manager
    • HadoopName
      • HDFS: système de fichiers distribué qui gère de grands ensembles de données
      • Fil: système qui gère et met à l’échelle les ressources des systèmes distribués
    • Stockage, bases de données
      • Ruche: logiciel d’entrepôt de données conçu pour fournir des requêtes et des analyses de données
      • HBase: base de données distribuée non relationnelle pour stocker des quantités massives de données éparses de manière tolérante aux pannes
      • Koudou: moteur de stockage de données distribué orienté colonne pour des données d’analyse rapides
    • Diffusion
    • Requête
      • Impala: un moteur de requête basé sur Apache Hadoop
      • Étincelle: un moteur d’analyse unifié pour le traitement de données à grande échelle
    • interface utilisateur
      • Teinte: Assistant SQL pour interroger les bases de données et les entrepôts de données et collaborer
      • Zeppelin: une interface web pour analyser et formater facilement de gros volumes de données traitées via Spark
      • Studio d’analyse de données (DAS): application qui fournit des outils de diagnostic et des recommandations astucieuses pour aider les analystes métier à devenir plus autonomes et productifs avec Hive
    • Sécurité, administration
      • Ranger: fournit une plate-forme centralisée pour définir, administrer et gérer les politiques de sécurité dans l’ensemble de l’écosystème Hadoop de manière cohérente
      • Atlas: échange des métadonnées avec d’autres outils et processus, à l’intérieur et à l’extérieur de la pile Hadoop
  • CDP PVC Plus
    • OpenShift: déploiement de projets dans des conteneurs
    • Expériences
      • Entrepôt de données : construction d’un système en libre-service d’entrepôts de données et de magasins de données autonomes qui évoluent automatiquement en fonction de l’évolution des demandes de charge de travail
      • Machine Learning : déployer des espaces de travail Machine Learning
  • Atelier de science des données Cloudera (CDSW): plateforme qui permet aux Data Scientists de gérer leurs propres pipelines d’analyse
  • Gestion des flux Cloudera (CFM)
    • Ni-Fi: automatiser les mouvements de données entre différents systèmes

Avantages du cloud privé CDP

  • Flexibilité — l’environnement cloud de votre organisation peut être personnalisé pour répondre à des besoins spécifiques de l’entreprise.
  • Contrôle — Niveaux de contrôle et de confidentialité plus élevés en raison de ressources non partagées.
  • Évolutivité – les clouds privés offrent souvent une évolutivité plus élevée, par rapport à l’infrastructure sur site.

Conclusion

Cloudera Data Platform (CDP) vous offre la plus grande polyvalence lorsqu’il s’agit de créer et de maintenir un entrepôt de données de production basé sur le cloud, ce qui simplifie la migration des données vers le cloud et l’exécution de l’entrepôt de données en production. Ils dépendent tous deux de la Shared Data Experience (SDX), qui est en charge de la sécurité et de la gouvernance. Dans l’ensemble, il s’agit d’une solution adéquate pour les organisations qui ont besoin d’un environnement cloud fiable, évolutif et sécurisé. Il donne la flexibilité de choisir entre le cloud privé et le cloud public, qui présentent tous deux leurs propres avantages.

Leave a Reply