Google bringt Vertex AI Vision auf den Markt, computergestütztes Sehen ohne Code

Vertex AI Vision, das kürzlich von Google eingeführte Computer-Vision-Tool, kombiniert Videoquellen, ML-Modelle und Data Warehouses, um umfassende Informationen und Computer-Vision-Analysen bereitzustellen, ohne sich um Code kümmern zu müssen.
Die Entwicklung und Bereitstellung von Computer-Vision-Anwendungen ist komplex und teuer. Unternehmen benötigen Data Scientists und Machine Learning (ML)-Ingenieure, um Trainings- und Inferenz-Pipelines basierend auf unstrukturierten Daten wie Bildern und Videos aufzubauen. Angesichts des akuten Mangels an qualifizierten ML-Ingenieuren ist das Erstellen und Integrieren von Smart-Vision-KI-Anwendungen für Unternehmen mühsam geworden.
Andererseits stellen Unternehmen wie Google, Intel, Meta, Microsoft, Nvidia und OpenAI den Kunden vortrainierte Modelle zur Verfügung. Diese Modelle, die Themen wie Gesichts-, Emotions-, Posen- und Fahrzeugerkennung abdecken, sind als Open Source für Entwickler verfügbar, um intelligente visionsbasierte Anwendungen zu erstellen. Viele Unternehmen haben in CCTV-, Überwachungs- und IP-Kameras investiert, um sie zu schützen. Obwohl sie mit vorhandenen vortrainierten Modellen verbunden werden können, ist die zum Verbinden der Punkte erforderliche Verrohrung viel zu komplex.
Erstellen von Vision-KI-Inferenzpipelines
Das Einrichten einer Vision-KI-Inferenzpipeline zum Lernen aus Bildern, die von vorhandenen Kameras und vortrainierten oder benutzerdefinierten Modellen erfasst wurden, umfasst das Verarbeiten, Codieren und Normalisieren von Videostreams, die auf das Zielmodell ausgerichtet sind. Sobald all dies vorhanden ist, sollte das Inferenzergebnis zusammen mit den Metadaten erfasst werden, um Einblicke durch visuelle Dashboards und Analysen zu liefern.
Für Plattformanbieter ermöglicht die Inferenzpipeline von Vision AI die Erstellung von Entwicklungstools und -umgebungen zur Verknüpfung von Videoquellen, Modellen und der Analyse-Engine. Bietet die Entwicklungsumgebung einen No-Code- oder Low-Code-Ansatz, wird der Prozess weiter beschleunigt und vereinfacht.
Erstellen einer Vision-KI-Inferenzpipeline mit Vertex AI Vision. (Bildnachweis: G Cloud)
Einige Details zu Vertex AI Vision
Mit Vertex AI Vision, das von Google im vergangenen Oktober in der Beta-Version eingeführt wurde, integrieren Unternehmen künstliche Intelligenz des maschinellen Sehens nahtlos in Anwendungen, ohne Klempnerarbeit oder schweres Heben. Diese integrierte Umgebung kombiniert Videoquellen, Modelle für maschinelles Lernen und Data Warehouses, um umfassende Einblicke und Analysen zu liefern. Kunden können entweder vortrainierte Modelle verwenden, die in der Umgebung verfügbar sind, oder benutzerdefinierte Modelle verwenden, die in der Vertex-KI-Plattform erstellt wurden.
Es ist möglich, vortrainierte Modelle oder benutzerdefinierte Modelle zu verwenden, die in der Vertex-KI-Plattform trainiert wurden. (Bildnachweis: G Cloud)
Eine Vertex AI Vision-App beginnt mit einer leeren Leinwand, die zum Erstellen einer Inferenzpipeline für maschinelles Sehen verwendet wird, indem Komponenten aus einer visuellen Palette gezogen und abgelegt werden.
Erstellen einer Pipeline mit Drag-and-Drop-Komponenten. (Bildnachweis: G Cloud)
Die Palette enthält verschiedene Konnektoren, darunter Video-Feeds von der Kamera und außerhalb der Kamera, eine Sammlung vortrainierter Modelle, spezialisierte Modelle für bestimmte Branchen, benutzerdefinierte Modelle, die mit AutoML oder Vertex AI erstellt wurden, und Datenspeicher in Form von BigQuery und AI Vision Lagerhaus.
Mehrere Funktionen im Zusammenhang mit der Lösung
Vertex AI Vision bringt verschiedene Dienste und Anwendungen mit. First Streams, ein Endpunktdienst zum Einlesen von Videostreams und Bildern über ein geografisch verteiltes Netzwerk. Der Benutzer verbindet eine beliebige Kamera oder ein beliebiges Gerät von überall und lässt Google die Skalierung und Aufnahme verwalten. Vertex AI Vision bietet auch die Erstellung einer Anwendung, um Komponenten wie Videostreams, ML-Modelle zur Analyse und Warehouses zur Datenspeicherung in nur wenigen Minuten per Drag-and-Drop-Funktion auf seiner Oberfläche zu kombinieren.
Vorgefertigte Vision-Modelle für gängige Analyseaufgaben, einschließlich Insassenzählung, Gesichtsunschärfe und Einzelhandelsprodukterkennung, werden ebenfalls zur Verfügung gestellt. Darüber hinaus können Benutzer ihre eigenen Modelle erstellen und bereitstellen, die mit der Vertex AI-Plattform entwickelt wurden. Ein weiterer interessanter Punkt ist das Datawarehouse. Dieses integrierte serverlose Rich-Media-Speichersystem kombiniert Google-Suche und verwalteten Videospeicher. Petabytes an Videodaten können im Warehouse aufgenommen, gespeichert und durchsucht werden. Die folgende Pipeline nimmt beispielsweise Videos aus einer einzigen Quelle auf, leitet sie an den Personen- und Fahrzeugzähler weiter und speichert Eingabe- und Ausgabemetadaten (Inferenz) in AI Vision Warehouse, um einfache Abfragen auszuführen. Es kann durch BigQuery ersetzt werden, um es in vorhandene Anwendungen zu integrieren oder komplexe SQL-basierte Abfragen auszuführen.
Mit Vertex AI Vision erstellte Beispiel-Pipeline. (Bildnachweis: G Cloud)
Bereitstellen einer Vision-Pipeline
Sobald die Pipeline visuell aufgebaut ist, kann sie bereitgestellt werden, um Rückschlüsse zu ziehen. Grüne Häkchen im Screenshot unten zeigen eine erfolgreiche Bereitstellung an.
Grüne Häkchen zeigen an, dass die Pipeline bereitgestellt wurde. (Bildnachweis: G Cloud)
Der nächste Schritt besteht darin, mit der Aufnahme des Videostreams zu beginnen, um die Inferenz auszulösen. Google stellt ein Befehlszeilentool namens vaictl bereit, um den Videostream von einer Quelle abzurufen und an den Endpunkt von Vertex AI Vision weiterzuleiten. Es unterstützt statische Videodateien und RTSP-Streams basierend auf H.264-Codierung.
Sobald die Pipeline ausgelöst wurde, können die Eingabe- und Ausgabestreams wie gezeigt von der Konsole aus überwacht werden.
Überwachen von Ein- und Ausgabeströmen von der Konsole. (Bildnachweis: G Cloud)
Da das Inferenzergebnis im AI Vision Warehouse gespeichert wird, kann es anhand eines Suchkriteriums abgefragt werden. Der folgende Screenshot zeigt beispielsweise Bilder mit fünf oder mehr Personen oder Fahrzeugen.
Beispielabfrage für die Inferenzausgabe. (Bildnachweis: G Cloud)
Google stellt ein Software Development Kit (SDK) für die programmgesteuerte Kommunikation mit dem Warehouse bereit. BigQuery-Entwickler können vorhandene Bibliotheken verwenden, um erweiterte Abfragen basierend auf ANSI SQL auszuführen.
Lösungsintegrationen und Support
Vision ist eng in Vertex AI integriert, Googles Managed Machine Learning PaaS. Kunden können Modelle entweder mit AutoML oder durch benutzerdefiniertes Training erstellen. Um eine benutzerdefinierte Verarbeitung der Ausgabe hinzuzufügen, hat Google Cloud-Funktionen integriert, die die Ausgabe manipulieren können, um zusätzliche Anmerkungen oder Metadaten hinzuzufügen. Das wahre Potenzial der Vision-Plattform liegt in ihrem No-Code-Ansatz und ihrer Fähigkeit zur Integration mit anderen Google Cloud-Diensten wie BigQuery, Cloud Functions und Vertex AI.
Während Vertex AI Vision ein großer Schritt zur Vereinfachung der visuellen KI ist, ist zusätzliche Unterstützung erforderlich, um Anwendungen am Rand bereitzustellen. Branchen wie das Gesundheitswesen, Versicherungen und die Automobilindustrie ziehen es vor, Vision-KI-Pipelines am Edge auszuführen, um Latenzen zu vermeiden und Compliance zu erfüllen. Das Hinzufügen von Edge-Unterstützung wird zu einem Schlüsselfaktor für Vertex AI Vision.
Pay-as-you-go oder monatliche Option
Schließlich hat Google zusätzlich zu einem standardmäßigen Pay-as-you-go-Modell (PAYG) ein monatliches Preismodell für Nutzer eingeführt. Bis zum Ende der Beta-Launch-Phase, also vom 11. Oktober 2022 bis zum 7. Dezember 2022, waren alle vortrainierten Modelle außer den Visual Inspection AI (VIAI)-Modellen kostenlos verfügbar. Ab heute profitieren Nutzer, die sich für die monatliche Zahlung entschieden haben, weiterhin von allen vortrainierten Modellen, mit Ausnahme der Visual Inspection AI (VIAI)-Modelle, die bis zum 1äh Juni 2023, womit die Probezeit endet.