Big Data – Was ist das?


Big Data. Jeder spricht davon, doch habe auch ich mich bisher wenig damit beschäftigt. Viele sprechen darüber, welches Potential Big Data hat, doch irgendwie habe ich noch nicht sehr viel davon gesehen, was mir den Alltag erleichtert (ausser dass ich via Kreditkarte, Cumulus Karte und Mobilfunkanbieter auspioniert werden). Daher mal mein nüchterner Blick auf die Sachlage.

Wikipedia definiert den Term Big Data wie folgt:

Big data is the term for a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. The challenges include capture, curation, storage, search, sharing, transfer, analysis and visualization.

Ich habe festgestellt, dass dieser Begriff sehr unterschiedlich aufgefasst wird. Es scheint, als klafft vor allem eine Lücke zwischen Business und Wissenschaft. Stellt sich die Frage, ob ein Recordset von 1 GB rohen Daten bereits als Big Data zählt oder nicht? Laut Chief Data Officer von Express Script an seinem Vortrag am Big Data Innovation Summit in Boston ist nicht nur das Volumen ein Kriterium für Big Data, sondern es gibt vier Kriterien:

  1. Volumen. Sehr dehnbarer Begriff. Wissenschaftler reden von Petabytes an Daten, während ein normaler Industrieusecase wohl eher von ein paar GB ausgeht.

  2. Velocity (Geschwindigkeit). Die Geschwindigkeit mit der die Daten gesammelt und weiterverarbeitet werden müssen.

  3. Variety (Vielfältigkeit). Viele verschiedene Quellen an Daten in vielen verschiedenen Formaten, sprich Bild, strukturierter Text, unstrukturierter Text, PDF, MP3 usw.

  4. Veracity (Wahrhaftigkeit). Oftmals sind die Daten, welche erhoben werden nicht relevant fürs Ziel. Es gibt viel «Lärm» und es müssen Mittel und Wege gefunden werden, um die Bedeutungsvollen Daten zu finden.

Je nach Big Data Anwendung ist (mind.) 1 dieser Dimensionen betroffen (oftmals mehr), aber zu sagen es müssen mind. 1 Petabyte an Daten vorhanden sein, um es Big Data zu nennen würde ein bisschen kurz greifen.

Zu sagen wäre noch, dass es eine grosse Lücke zwischen dem Potential und der Realisierung gibt cra.org. Gründe dafür sind Komplexität der Daten und Zusammenhänge, Heterogenität und Datenschutz. Viele Visionen und Szenarien, hübsche Videos, die Realität ist jedoch ernüchternd.

Fazit

Hauptziel von Big Data ist es Entscheidungen basierend auf Daten zu fällen bzw. aus Daten neue Erkenntnisse zu gewinnen und nicht basierend auf theoretischen Modellen. Big Data ist daher wohl das falsche Wort. Korrekter müsste es heissen «Data Driven», aber ist halt nicht gut genug, um als Buzz Wort durchzugehen.

Feedback? Mehr Inputs und vor allem ein paar Interessante Case Studies werde ich in einem folgenden Beitrag bringen.

Und die Realität von Big Data?

Man schaue sich dieses Video an. Entweder bekomme ich nichts von der Welt mit, oder aber die Visionen und die Realität klaffen wirklich noch weit auseinander… oder es ist nur in der Schweiz noch ein bisschen «bünzlig», was Ärzte und Technologie betrifft: