La simplification de la gestion et de l’analyse des données pour les entreprises est un thème majeur de la conférence AWS re:Invent de cette année, alors qu’Amazon annonce de nouveaux services et fonctionnalités destinés à faciliter extraire, transformer, charger (ETL) processus et fournir un support pour le catalogage et la recherche de données dans toutes les organisations.

AWS a publié deux nouvelles fonctionnalités – l’intégration ETL zéro Amazon Aurora avec Amazon Redshift et l’intégration Amazon Redshift pour Apache Spark – qui, selon elle, rendront le processus ETL obsolète.

Les entreprises utilisent généralement ETL pour intégrer des données provenant de plusieurs sources dans un seul magasin de données cohérent à charger dans un entrepôt de données pour analyse.

Cependant, la plupart ingénieurs de données affirment que la transformation de données provenant de sources disparates pourrait être une tâche difficile et chronophage, car le processus implique des étapes telles que le nettoyage, le filtrage, le remodelage et la synthèse des données brutes.

Un autre problème est le coût supplémentaire du maintien des équipes qui préparent les pipelines de données pour l’exécution des analyses, a déclaré AWS.

De nouvelles fonctionnalités visent à éliminer l’ETL

En revanche, l’intégration Amazon Aurora zero-ETL, selon la société, élimine le besoin d’effectuer un ETL entre Aurora et RedShift, car les données transactionnelles écrites dans Aurora sont répliquées dans RedShift presque immédiatement et sont prêtes pour l’analyse.

“Les clients peuvent répliquer les données de plusieurs clusters de bases de données Amazon Aurora dans la même instance Amazon Redshift pour obtenir des informations sur plusieurs applications”, a déclaré la société dans un communiqué, ajoutant que l’intégration était actuellement en préversion.

En outre, la société a déclaré qu’Amazon Redshift Integration for Apache Spark aidera les développeurs d’entreprise à utiliser AWS analytique et apprentissage automatique services pour créer et exécuter des applications Apache Spark sur les données d’Amazon Redshift.

Apache Spark, qui est un outil couramment utilisé par les développeurs, est un moteur d’analyse unifié open source pour le traitement Big Data.

« Les développeurs peuvent commencer à exécuter des requêtes sur les données Amazon Redshift à partir d’applications basées sur Apache Spark en quelques secondes à l’aide de cadres de langage populaires (par exemple, Java, Python, Ret Scala) », a déclaré la société, ajoutant que l’intégration a été rendue généralement disponible.

Amazon DataZone pour aider à cataloguer et rechercher des données

Le fournisseur de services cloud a également présenté en avant-première un nouveau service de gestion de données, baptisé Amazon DataZone. Le nouveau service de gestion des données, qui n’est pas encore disponible, devrait aider les entreprises à cataloguer, découvrir, partager et gérer les données stockées sur AWS, sur site et sur des sources tierces, a déclaré la société.

Les producteurs de données d’une entreprise peuvent configurer le catalogue de données en définissant les sources de données, la taxonomie des données et les politiques de gouvernance via le portail Web du service, a déclaré AWS.

“Amazon DataZone supprime la lourde charge de la maintenance d’un catalogue en utilisant l’apprentissage automatique pour collecter et suggérer des métadonnées (par exemple, l’origine et le type de données) pour chaque ensemble de données et en formant sur la taxonomie et les préférences d’un client pour s’améliorer au fil du temps”, a déclaré la société dans un communiqué de presse.

Une fois le catalogue configuré, les consommateurs de données peuvent utiliser le portail Web Amazon DataZone pour rechercher et découvrir des actifs de données, examiner les métadonnées pour le contexte et demander l’accès aux ensembles de données, a-t-il ajouté.

Afin d’exécuter des analyses sur les données, les utilisateurs de l’entreprise doivent créer un projet de données Amazon DataZone, un espace partagé dans le portail Web qui permet aux utilisateurs d’extraire différents ensembles de données, de partager l’accès avec des collègues et de collaborer sur l’analyse, a déclaré AWS.

“Amazon DataZone est intégré aux services d’analyse AWS, tels qu’Amazon Redshift, Amazon Athena et Amazon QuickSight, qui permettent aux consommateurs de données d’accéder à ces services dans le cadre de leur projet de données”, a déclaré la société.

Le service fournit également des API à intégrer à des solutions personnalisées ou à des partenaires tels que DataBricks, Snowflake et Tableau.

AWS Clean Rooms facilite la collaboration sur les données

Afin d’aider les entreprises à collaborer sur les données avec leurs partenaires, AWS a lancé un nouveau service, baptisé AWS Clean Rooms.

Le service, qui est actuellement limité aux seuls clients AWS, est accessible via la console de gestion AWS, où une entreprise peut choisir le partenaire avec lequel elle souhaite collaborer, a déclaré la société, ajoutant que la console offre des options pour choisir des ensembles de données à être partagé et configurer les autorisations pour les participants.

Les ensembles de données qui sont partagés dans la salle blanche sont cryptés et n’ont pas besoin de sortir de l’environnement AWS ou d’être chargés sur une autre plate-forme, a déclaré AWS, ajoutant que les requêtes peuvent également être exécutées sur ces ensembles de données.

De plus, AWS Clean Rooms fournit un large ensemble de contrôles d’accès aux données configurables, notamment des contrôles de requête, des restrictions de sortie de requête et la journalisation des requêtes, qui permettent aux entreprises de personnaliser les restrictions sur les requêtes exécutées par chaque participant de la salle blanche.

AWS Clean Rooms, qui est disponible en tant qu’offre autonome et dans le cadre d’AWS pour la publicité et le marketing, sera disponible début 2023 dans USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique ( Séoul), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Europe (Francfort), Europe (Irlande), Europe (Londres) et Europe (Stockholm).

AWS ajoute de nouvelles fonctionnalités à Amazon QuickSight

En plus de mettre à jour d’autres services, AWS a ajouté de nouvelles fonctionnalités à son service unifié de Business Intelligence, Amazon QuickSight.

Le fournisseur de services cloud a ajouté la possibilité de poser des requêtes en langage naturel dans QuickSight via une nouvelle fonctionnalité appelée QuickSight Q.

QuickSight Q utilise l’apprentissage automatique pour permettre aux utilisateurs de l’entreprise de poser des questions sur les données commerciales en langage naturel et de recevoir des réponses précises avec des visualisations pertinentes en quelques secondes, a déclaré la société, ajoutant que la fonctionnalité permettra aux utilisateurs de poser des questions “pourquoi” et de rechercher des prévisions sur les données.

La prise en charge des prévisions et des questions « pourquoi » est disponible sans frais supplémentaires pour tous les clients QuickSight Q, selon la société.

QuickSight Q est également livré avec une autre capacité qui déduit et ajoute automatiquement des informations sémantiques aux ensembles de données, réduisant ainsi le temps que les équipes de business intelligence consacrent à la préparation des données pour les requêtes en langage naturel de quelques jours à quelques minutes, a déclaré AWS.

Cela est rendu possible par des modèles d’apprentissage automatique pré-entraînés et des apprentissages à partir d’actifs d’informatique décisionnelle tels que des tableaux de bord et des rapports.

La possibilité de préparer automatiquement les données dans QuickSight Q est également disponible pour les clients QuickSight Q existants sans frais supplémentaires.

Parmi les autres fonctionnalités ajoutées, citons la possibilité de générer des rapports paginés et une analyse rapide des grands ensembles de données.

Le service de rapport paginé est mis à disposition en tant que service complémentaire pour les clients de l’édition QuickSight Enterprise, a indiqué la société.

Copyright © 2022 IDG Communications, Inc.

Leave a Reply