Transparente Datenbankunterstützung für Analysen auf Big Data

Es ist kein Geheimnis, dass in den letzten Jahren in der Entwicklung und Forschung unterschiedlichster Bereiche ein enormer Anstieg an genutzten Datenmengen zu beobachten ist. Grund hierfur sind hauptsachlich neue technische Moglichkeiten, wie beispielsweise bessere oder gunstigere Sensortechnik. Diese unzahligen Datenmengen bieten den Entwicklern und Forschern oftmals unfassbare Moglichkeiten, fuhren aber auch teilweise zu neuen Problemen. So werden oftmals Programme fur Auswertungen genutzt, die nicht fur enorm grose Datensatze entwickelt wurden und demnach entweder deutlich zu langsam sind oder nicht funktionsfahig. Ein gutes Beispiel hierfur ist das open-source Programm R [14], welches fur sein umfangreiches Repertoire statistischer Methoden, wie beispielsweise Machine-Learning-Algorithmen, bekannt und beliebt ist. R’s Performance jedoch hangt masgeblich mit der Datengrose zusammen. Steigt diese uber die Grose des Hauptspeichers, fallt die Rechengeschwindigkeit drastisch ab. Aus diesem Grund stellen wir in diesem Artikel unseren Framework fur eine transparente Datenbankund Parallelisierungsunterstutzung von R vor. Hierbei legen wir grosen Wert auf die Nutzerfreundlichkeit, d.h. in diesem Fall, dass der Nutzer seine gewohnte Entwicklungsumgebung (etwa sein R-Skript) nicht zu andern braucht und trotzdem die Vorteile paralleler Berechnung, sowie die Inund OutputFahigkeiten von Datenbanksystemen ausnutzen kann.