Wired brain illustration - next step to artificial intelligence

Développer et déployer vision IA applications est complexe et coûteuse. Les organisations ont besoin scientifiques des données et ingénieurs en apprentissage automatique pour créer des pipelines de formation et d’inférence basés sur des données non structurées telles que des images et des vidéos. Avec la pénurie aiguë d’ingénieurs qualifiés en apprentissage automatique, la création et l’intégration d’applications d’IA de vision intelligente sont devenues coûteuses pour les entreprises.

D’autre part, des entreprises telles que Google, Intel, Meta, Microsoft, NVIDIA et OpenAI mettent à la disposition des clients des modèles pré-formés. Des modèles pré-formés tels que la détection de visage, la détection d’émotion, la détection de pose et la détection de véhicule sont librement disponibles pour les développeurs afin de créer des applications intelligentes basées sur la vision. De nombreuses organisations ont investi dans la vidéosurveillance, la surveillance et les caméras IP pour la sécurité. Bien que ces caméras puissent être connectées à des modèles pré-formés existants, la plomberie nécessaire pour relier les points est beaucoup trop complexe.

Construire des pipelines d’inférence d’IA de vision

La création d’un pipeline d’inférence d’IA de vision pour obtenir des informations à partir de caméras existantes et de modèles pré-formés ou de modèles personnalisés implique le traitement, l’encodage et la normalisation des flux vidéo alignés avec le modèle cible. Une fois que cela est en place, le résultat de l’inférence doit être capturé avec les métadonnées pour fournir des informations via des tableaux de bord visuels et des analyses.

Pour les fournisseurs de plates-formes, le pipeline d’inférence d’IA de vision offre une opportunité de créer des outils et des environnements de développement pour relier les points entre les sources vidéo, les modèles et le moteur d’analyse. Si l’environnement de développement fournit un pas de code/low-code approche, il accélère et simplifie davantage le processus.

sommet ai 0 IDG

Figure 1. Création d’un pipeline d’inférence d’IA de vision avec Vertex AI Vision.

À propos de Vertex AI Vision

de Google Vertex AI Vision permet aux organisations d’intégrer de manière transparente l’IA de vision par ordinateur dans les applications sans la plomberie et le levage lourd. Il s’agit d’un environnement intégré qui combine des sources vidéo, des modèles d’apprentissage automatique et des entrepôts de données pour fournir des informations et des analyses riches. Les clients peuvent soit utiliser des modèles préformés disponibles dans l’environnement, soit apporter des modèles personnalisés formés dans le Vertex IA Plate-forme.

sommet ai 1 IDG

Figure 2. Il est possible d’utiliser des modèles pré-formés ou des modèles personnalisés formés dans la plateforme Vertex AI.

Une application Vertex AI Vision commence par un canevas vierge, qui est utilisé pour créer un pipeline d’inférence de vision IA en faisant glisser et en déposant des composants à partir d’une palette visuelle.

sommet ai 2 IDG

Figure 3. Construction d’un pipeline avec des composants glisser-déposer.

La palette contient divers connecteurs qui incluent les flux caméra/vidéo, une collection de modèles pré-formés, des modèles spécialisés ciblant des secteurs industriels spécifiques, des modèles personnalisés créés à l’aide d’AutoML ou de Vertex AI, et des magasins de données sous la forme de BigQuery et AI Vision Warehouse.

Selon Google Cloud, Vertex AI Vision propose les services suivants :

  • Flux de vision Vertex AI: un service de point de terminaison pour l’ingestion de flux vidéo et d’images sur un réseau distribué géographiquement. Connectez n’importe quelle caméra ou appareil depuis n’importe où et laissez Google gérer la mise à l’échelle et l’ingestion.
  • Applications de vision Vertex AI: Les développeurs peuvent créer des pipelines de traitement et d’analyse multimédia étendus et auto-évolutifs à l’aide de cette plate-forme d’orchestration sans serveur.
  • Modèles de vision Vertex AI: Modèles de vision prédéfinis pour les tâches d’analyse courantes, notamment le comptage de l’occupation, la détection des EPI, le floutage des visages et la reconnaissance des produits de vente au détail. De plus, les utilisateurs peuvent créer et déployer leurs propres modèles formés au sein de la plate-forme Vertex AI.
  • Vertex AI Vision Entrepôt: Un système de stockage multimédia sans serveur intégré qui combine la recherche Google et le stockage vidéo géré. Des pétaoctets de données vidéo peuvent être ingérés, stockés et recherchés dans l’entrepôt.

Par exemple, le pipeline ci-dessous ingère la vidéo à partir d’une source unique, la transmet au compteur de personnes/véhicules et stocke les métadonnées d’entrée et de sortie (inférence) dans AI Vision Warehouse pour exécuter des requêtes simples. Il peut être remplacé par BigQuery pour s’intégrer à des applications existantes ou effectuer des requêtes complexes basées sur SQL.

sommet ai 3 IDG

Figure 4. Exemple de pipeline construit avec Vertex AI Vision.

Déploiement d’un pipeline Vertex AI Vision

Une fois le pipeline construit visuellement, il peut être déployé pour commencer à effectuer des inférences. Les coches vertes dans la capture d’écran ci-dessous indiquent un déploiement réussi.

sommet ai 4 IDG

Figure 5. Les coches vertes indiquent que le pipeline a été déployé.

L’étape suivante consiste à commencer à ingérer le flux vidéo pour déclencher l’inférence. Google fournit un outil de ligne de commande appelé vaictl pour récupérer le flux vidéo d’une source et le transmettre au point de terminaison Vertex AI Vision. Il prend en charge les fichiers vidéo statiques et les flux RTSP basés sur l’encodage H.264.

Une fois le pipeline déclenché, les flux d’entrée et de sortie peuvent être surveillés à partir de la console, comme indiqué.

sommet ai 5 IDG

Figure 6. Surveillance des flux d’entrée et de sortie depuis la console.

Étant donné que la sortie d’inférence est stockée dans AI Vision Warehouse, elle peut être interrogée en fonction d’un critère de recherche. Par exemple, la capture d’écran suivante montre des cadres contenant au moins cinq personnes ou véhicules.

sommet ai 6 IDG

Figure 7. Exemple de requête pour la sortie d’inférence.

Google fournit un SDK pour communiquer par programmation avec l’entrepôt. Les développeurs BigQuery peuvent utiliser des bibliothèques existantes pour exécuter des requêtes avancées basées sur ANSI SQL.

Intégrations et prise en charge de Vertex AI Vision en périphérie

Vertex AI Vision est étroitement intégré à Vertex AI, le PaaS d’apprentissage automatique géré de Google. Les clients peuvent former des modèles via AutoML ou une formation personnalisée. Pour ajouter un traitement personnalisé de la sortie, Google a intégré Cloud Functions, qui peut manipuler la sortie pour ajouter des annotations ou des métadonnées supplémentaires.

Le véritable potentiel de la plate-forme Vertex AI Vision réside dans son approche sans code et sa capacité à s’intégrer à d’autres services Google Cloud tels que BigQuery, Cloud Functions et Vertex AI.

Bien que Vertex AI Vision soit une excellente étape vers la simplification de l’IA de vision, un soutien supplémentaire est nécessaire pour déployer des applications à la périphérie. Les secteurs verticaux tels que la santé, l’assurance et l’automobile préfèrent exécuter des pipelines d’IA de vision à la périphérie pour éviter la latence et respecter la conformité. L’ajout de la prise en charge de la périphérie deviendra un moteur clé pour Vertex AI Vision.

Copyright © 2022 IDG Communications, Inc.

Leave a Reply