Impala: Eine moderne, quellen-offene SQL Engine für Hadoop

Impala von Cloudera ist ein modernes, massiv paralleles Datenbanksystem, welches von Grund auf fur die Bedurfnisse und Anforderungen einer Big Data Umgebung wie Hadoop entworfen wurde. Das Ziel von Impala ist es, klassische SQL-Abfragen mit geringer Latenz und Laufzeit auszufuhren, so wie man es von typischen BI/DW Losungen gewohnt ist. Gleichzeitig sollen dabei sehr grose Quelldaten in Hadoop gelesen werden, ohne dass ein weiterer Extraktionsprozess in zusatzliche Systemlandschaften notwendig ist. Dieses Kapitel soll einen Uberblick uber Impala aus der Benutzerperspektive geben und detaillierter auf die Hauptkomponenten und deren Entwurfsentscheidungen eingehen. Zusatzlich werden wir einen Geschwindigkeitsvergleich mit anderen bekannten SQL-auf-Hadoop Losungen vorstellen, der den besonderen Ansatz von Impala unterstreicht.