So erstellen Sie eine skalierbare Datenanalyse-Pipeline

Jede Anwendung generiert Daten, aber was bedeuten diese Daten? Diese Frage müssen alle Datenwissenschaftler beantworten.

Es besteht kein Zweifel, dass diese Informationen das wertvollste Gut für ein Unternehmen sind. Noch wichtiger ist es jedoch, Daten zu verstehen, Erkenntnisse zu gewinnen und sie in Entscheidungen umzuwandeln.

Da das Datenvolumen weiter zunimmt, müssen die Datenanalyse-Pipelines skalierbar sein, um die Änderungsrate anzupassen. Aus diesem Grund ist die Einrichtung der Pipeline in der Cloud absolut sinnvoll (da die Cloud On-Demand-Skalierbarkeit und Flexibilität bietet).

In diesem Artikel werde ich entmystifizieren, wie eine skalierbare und anpassbare Datenverarbeitungspipeline in Google Cloud erstellt wird. Und keine Sorge - diese Konzepte sind in jeder anderen Cloud- oder On-Premise-Datenpipeline anwendbar.

5 Schritte zum Erstellen einer Data Analytics-Pipeline:

  • Zuerst nehmen Sie die Daten aus der Datenquelle auf
  • Verarbeiten und bereichern Sie dann die Daten, damit Ihr nachgeschaltetes System sie in dem Format verwenden kann, das es am besten versteht.
  • Anschließend speichern Sie die Daten in einem Data Lake oder Data Warehouse zur Langzeitarchivierung oder zur Berichterstellung und Analyse.
  • Sie können die Daten dann analysieren, indem Sie sie in Analysetools einspeisen.
  • Wenden Sie maschinelles Lernen für Vorhersagen an oder erstellen Sie Berichte, die Sie mit Ihren Teams teilen können.

Lassen Sie uns jeden dieser Schritte genauer durchgehen.

So erfassen Sie die Daten

Je nachdem, woher Ihre Daten stammen, können Sie sie mit mehreren Optionen erfassen.

  • Verwenden Sie Datenmigrationstools, um Daten von lokal oder von einer Cloud in eine andere zu migrieren. Zu diesem Zweck bietet Google Cloud einen Speicherübertragungsdienst an.
  • Verwenden Sie APIs und senden Sie die Daten an das Data Warehouse, um Daten von Saas-Diensten von Drittanbietern aufzunehmen. In Google Cloud BigQuery bietet das serverlose Data Warehouse einen Datenübertragungsdienst, mit dem Sie Daten aus Saas-Apps wie YouTube, Google Ads, Amazon S3, Teradata, ResShift und anderen einbringen können.
  • Sie können auch Echtzeitdaten aus Ihren Anwendungen mit dem Pub / Sub-Dienst streamen. Sie konfigurieren eine Datenquelle, um Ereignismeldungen in Pub / Sub zu übertragen, von wo aus ein Abonnent die Nachricht aufnimmt und entsprechende Maßnahmen ergreift.
  • Wenn Sie über IoT-Geräte verfügen, können diese Echtzeitdaten mithilfe des Cloud IoT-Kerns streamen, der das MQTT-Protokoll für die IoT-Geräte unterstützt. Sie können auch IoT-Daten an Pub / Sub senden.

So verarbeiten Sie die Daten

Sobald die Daten aufgenommen wurden, müssen sie verarbeitet oder angereichert werden, damit sie für die nachgeschalteten Systeme nützlich sind.

In Google Cloud gibt es drei Hauptwerkzeuge, die Ihnen dabei helfen:

  • Dataproc wird im Wesentlichen von Hadoop verwaltet. Wenn Sie das Hadoop-Ökosystem verwenden, wissen Sie, dass die Einrichtung mit Stunden und sogar Tagen kompliziert sein kann. Dataproc kann einen Cluster in 90 Sekunden hochfahren, sodass Sie schnell mit der Analyse der Daten beginnen können.
  • Dataprep ist ein intelligentes Tool für die grafische Benutzeroberfläche, mit dem Datenanalysten Daten schnell verarbeiten können, ohne Code schreiben zu müssen.  
  • Dataflow ist ein serverloser Datenverarbeitungsdienst für Streaming- und Batch-Daten. Es basiert auf dem Open Source SDK von Apache Beam und macht Ihre Pipelines portabel. Der Dienst trennt Speicher von Computer, wodurch eine nahtlose Skalierung möglich ist. Weitere Einzelheiten finden Sie in der GCPSketchnote unten.

So speichern Sie die Daten

Nach der Verarbeitung müssen Sie die Daten für die Langzeitarchivierung oder für die Berichterstellung und Analyse in einem Data Lake oder Data Warehouse speichern.

In Google Cloud gibt es zwei Hauptwerkzeuge, die Ihnen dabei helfen:

Google Cloud Storage ist ein Objektspeicher für Bilder, Videos, Dateien usw., der in vier Typen erhältlich ist:

  1. Standardspeicher: Gut für „heiße“ Daten, auf die häufig zugegriffen wird, einschließlich Websites, Streaming-Videos und mobiler Apps.
  2. Nearline-Speicher: Niedrige Kosten. Gut für Daten, die mindestens 30 Tage lang gespeichert werden können, einschließlich Datensicherung und Multimedia-Long-Tail-Inhalten.
  3. Coldline Storage: Sehr niedrige Kosten. Gut für Daten, die mindestens 90 Tage gespeichert werden können, einschließlich Disaster Recovery.
  4. Archivspeicher: Niedrigste Kosten. Gut für Daten, die mindestens 365 Tage gespeichert werden können, einschließlich regulatorischer Archive.

BigQuery ist ein serverloses Data Warehouse, das nahtlos auf Petabyte an Daten skaliert werden kann, ohne dass ein Server verwaltet oder gewartet werden muss.

Sie können Daten in BigQuery mithilfe von SQL speichern und abfragen. Dann können Sie die Daten und Abfragen ganz einfach mit anderen in Ihrem Team teilen.

Es enthält auch Hunderte von kostenlosen öffentlichen Datensätzen, die Sie für Ihre Analyse verwenden können. Darüber hinaus bietet es integrierte Konnektoren für andere Dienste, sodass Daten problemlos aufgenommen und zur Visualisierung oder weiteren Verarbeitung / Analyse daraus extrahiert werden können.

So analysieren Sie die Daten

Sobald die Daten verarbeitet und in einem Data Lake oder Data Warehouse gespeichert sind, können sie analysiert werden.  

Wenn Sie BigQuery zum Speichern der Daten verwenden, können Sie diese Daten direkt in BigQuery mithilfe von SQL analysieren.

Wenn Sie Google Cloud Storage verwenden, können Sie die Daten problemlos in BigQuery verschieben.

BigQuery bietet auch Funktionen für maschinelles Lernen mit BigQueryML. So können Sie Modelle erstellen und direkt von der BigQuery-Benutzeroberfläche aus mit dem vielleicht bekannteren SQL vorhersagen.

Verwendung und Visualisierung der Daten

Daten verwenden

Sobald sich die Daten im Data Warehouse befinden, können Sie sie verwenden, um mithilfe von maschinellem Lernen Einblicke zu gewinnen und Vorhersagen zu treffen.

Für die weitere Verarbeitung und Vorhersage können Sie das Tensorflow-Framework und die AI-Plattform je nach Ihren Anforderungen verwenden.

Tensorflow ist eine durchgängige Open-Source-Plattform für maschinelles Lernen mit Tools, Bibliotheken und Community-Ressourcen.

AI Platform erleichtert Entwicklern, Datenwissenschaftlern und Dateningenieuren die Optimierung ihrer ML-Workflows. Es enthält Tools für jede Phase des ML-Lebenszyklus, beginnend mit Vorbereitung -> Erstellen -> Validierung -> Bereitstellung.

Visualisierung der Daten

Es gibt viele verschiedene Tools für die Datenvisualisierung, und die meisten von ihnen verfügen über einen Konnektor zu BigQuery, mit dem Sie problemlos Diagramme in dem Tool Ihrer Wahl erstellen können.

Google Cloud bietet einige Tools, die Sie möglicherweise hilfreich finden.

  • Data Studio ist kostenlos und stellt nicht nur eine Verbindung zu BigQuery, sondern auch zu vielen anderen Diensten her, um die Datenvisualisierung zu vereinfachen. Wenn Sie Google Drive verwendet haben, ist das Teilen von Diagrammen und Dashboards genau so - extrem einfach.
  • Darüber hinaus ist Looker eine Unternehmensplattform für Business Intelligence, Datenanwendungen und eingebettete Analysen.

Fazit

In einer Datenanalyse-Pipeline ist viel los. Unabhängig davon, welche Tools Sie verwenden, stellen Sie sicher, dass sie skaliert werden können, wenn Ihre Daten in Zukunft wachsen.

Für weitere derartige Inhalte können Sie mir auf Twitter unter @pvergadia folgen und meine Website thecloudgirl.dev besuchen.