Ein kurzer Überblick über das Apache Hadoop Framework

Hadoop, heute bekannt als Apache Hadoop, wurde nach einem Spielzeugelefanten benannt, der dem Sohn von Mitbegründer Doug Cutting gehörte. Doug wählte den Namen für das Open-Source-Projekt, da es leicht zu buchstabieren, auszusprechen und in Suchergebnissen zu finden war. Der ursprüngliche gelbe ausgestopfte Elefant, der den Namen inspirierte, erscheint im Hadoop-Logo.

Was ist Apache Hadoop?

Die Apache Hadoop-Softwarebibliothek ist ein Framework, das die verteilte Verarbeitung großer Datenmengen über Computercluster mithilfe einfacher Programmiermodelle ermöglicht. Es wurde entwickelt, um von einzelnen Servern auf Tausende von Computern zu skalieren, von denen jeder lokale Berechnungen und Speicher bietet. Anstatt sich auf Hardware zu verlassen, um Hochverfügbarkeit bereitzustellen, wurde die Bibliothek selbst so konzipiert, dass Fehler auf Anwendungsebene erkannt und behandelt werden. Daher wird ein hochverfügbarer Dienst auf einem Computercluster bereitgestellt, von denen jeder fehleranfällig sein kann.

Quelle: Apache Hadoop

Im Jahr 2003 veröffentlichte Google sein Papier über das Google File System (GFS). Es wurde ein proprietäres verteiltes Dateisystem beschrieben, das einen effizienten Zugriff auf große Datenmengen mithilfe von Standardhardware ermöglichen soll. Ein Jahr später veröffentlichte Google ein weiteres Papier mit dem Titel "MapReduce: Vereinfachte Datenverarbeitung in großen Clustern". Zu dieser Zeit arbeitete Doug bei Yahoo. Diese Papiere waren die Inspiration für sein Open-Source-Projekt Apache Nutch. Im Jahr 2006 verließen die damals als Hadoop bekannten Projektkomponenten Apache Nutch und wurden veröffentlicht.

Warum ist Hadoop nützlich?

Jeden Tag werden Milliarden von Gigabyte an Daten in verschiedenen Formen erstellt. Einige Beispiele für häufig erstellte Daten sind:

  • Metadaten aus der Telefonnutzung
  • Website-Protokolle
  • Transaktionen zum Kauf von Kreditkarten
  • Social Media Beiträge
  • Videos
  • Informationen aus Medizinprodukten

"Big Data" bezieht sich auf Datensätze, die zu groß oder zu komplex sind, um mit herkömmlichen Softwareanwendungen verarbeitet zu werden. Faktoren, die zur Komplexität der Daten beitragen, sind die Größe des Datensatzes, die Geschwindigkeit der verfügbaren Prozessoren und das Datenformat.

Zum Zeitpunkt der Veröffentlichung war Hadoop in der Lage, Daten in größerem Umfang als herkömmliche Software zu verarbeiten.

Kern Hadoop

Die Daten werden im Hadoop Distributed File System (HDFS) gespeichert. Mithilfe der Kartenreduzierung verarbeitet Hadoop Daten in parallelen Blöcken (die mehrere Teile gleichzeitig verarbeiten) und nicht in einer einzelnen Warteschlange. Dies reduziert den Zeitaufwand für die Verarbeitung großer Datenmengen.

HDFS speichert große Dateien, die in Blöcke unterteilt sind, und repliziert sie auf vielen Servern. Wenn mehrere Kopien von Dateien vorhanden sind, entsteht Redundanz, die vor Datenverlust schützt.

Hadoop-Ökosystem

Es gibt viele andere Softwarepakete, die Hadoop ergänzen. Diese Programme umfassen das Hadoop-Ökosystem. Einige Programme erleichtern das Laden von Daten in den Hadoop-Cluster, während andere die Verwendung von Hadoop vereinfachen.

Das Hadoop-Ökosystem umfasst:

  • Apache Hive
  • Apache Pig
  • Apache HBase
  • Apache Phoenix
  • Apache Spark
  • Apache ZooKeeper
  • Cloudera Impala
  • Apache Flume
  • Apache Sqoop
  • Apache Oozie

Mehr Informationen:

  • Apache Hadoop