Big Data als Instrument für bessere Stammdaten

Qualitativ hochwertige Stammdaten sind für den Erfolg von Analyse- und Big Data-Projekten mitunter entscheidend. Eine Analyse, die mit unvollständigen oder fehlerhaften Stammdaten beginnt, wird in der Regel falsche Ergebnisse liefern. Man kann also mit Recht behaupten, dass Stammdaten in gewisser Weise den Grundstein für das Thema Big Data legen. Dieser Zusammenhang ist einigermaßen offensichtlich und auch schon vielfach beschrieben worden (s. [1][2], und [3]).

Umgekehrt gibt es einen Zusammenhang, der auf den ersten Blick nicht so selbstverständlich ist: Analytische Methoden und Big Data können dabei helfen, die Qualität von Stammdaten zu verbessern. Über ein Beispiel dafür wollen wir im Folgenden berichten.

Relevanz von Attributen für die Kaufentscheidung

Wenn es um viele hunderttausend Artikeldatensätze geht, dann ist eine manuelle Überarbeitung oder Ergänzung oft mit hohem Aufwand verbunden. Um so wichtiger ist es dann, sich auf die wichtigen Attribute zu konzentrieren. Es wäre ärgerlich, Aufwand in die Verbesserung der Datenqualität ausgerechnet bei solchen Attributen zu stecken, die sich nachher als unwesentlich herausstellen. Wenn es also gelingt, die relevanten Attribute zu identifizieren, dann kann man Arbeit besser fokussieren und letzlich mit gleichem Aufwand eine höhere Qualitätsteigerung erzielen. Doch woher weiß man, welche die wirklich wichtigen Attribute sind?

Bei der Bewertung der Relevanz von Attributen sollten das Wissen und die Erfahrung der Stakeholder durch entsprechende Beteiligung und Befragung mit eingebracht werden. Im E-Commerce ist das mit der Beteiligung der Stakeholder allerdings eher schwierig, denn hier ist der Kunde der Stakeholder. Und kein Kunde möchte gerne an einer Befragung teilnehmen, um zu beantworten, ob nun diese oder jene Information für seine Kaufentscheidung die wichtigere war.

Bestimmung der Relevanz mittels Choice-based Conjoint Analyse

Hier kommt die Statistik zur Hilfe. Schon in den siebziger Jahren wurde von Psychologen und Marktforschern eine Methode entwickelt, die sogenannte Choice-based Conjoint-Analyse (CBCA), die es erlaubt, Aufschluss über den „gefühlten Nutzen“ einer einzelnen Produkteigenschaft aus Sicht des Kunden zu geben. Diese Methode funktioniert auch dann noch, wenn in die Kaufentscheidung viele weitere Produkteigenschaften eingehen. Durch Anwendung der CBCA kann man den Nutzen jeder einzelnen Produkteigenschaft sozusagen aus dem Gesamtwert des Produkts „herausrechnen“.

Grundlage für die Methode sind Kaufentscheidungen von Kunden, die zwischen verschiedenen aber vergleichbaren Produkten (z.B. Smartphones mit unterschiedlich viel Speicher, Prozessorleistung, u.ä.) eine Auswahl treffen. Eine solche Auswahlsituation kann in einem Online-Shop mit einfachen Mitteln herbeigeführt werden und das Kundenverhalten lässt sich durch Analyse der Log-Dateien gut nachvollziehen. Ausgehend von einem statistischen Nutzen- und Entscheidungsmodell, wird eine Formel mit einer Reihe von freien Parametern hergeleitet. Mit dieser Formel lässt sich die Wahrscheinlichkeit errechnen, mit der sich der Kunde in der Auswahlsituation für eines der angebotenen Produkte entscheiden wird. Die Parameter werden dann solange iterativ angepasst, bis der errechnete Wert bestmöglich mit dem tatsächlichen Kaufverhalten des Kunden übereinstimmt (Maximum-Likelihood Methode). Am Ende spiegelt jeder der so ermittelten Parameter den quantitativen Teilnutzen einer bestimmten Produkteigenschaft wieder. Aus dem berechneten Teilnutzen der Produkteigenschaft können wir dann auf die Relevanz des Attributs im Verhältnis zu anderen Attributen schließen.

Big Data: Implementierung mit Apache Spark

Bei der Durchführung dieses Verfahrens, insbesondere im E-Commerce, landet man schnell in einer Größenordnung von Terabytes an Daten. Klassische Software für die Conjoint-Analyse ist in diesem Umfeld nicht unbedingt die beste Wahl. Bei einem unserer Kunden haben wir zur Auswertung der Attributrelevanz einen Spark/Hadoop-Cluster verwendet. Die Maximum-Likelihood Methode konnten wir mit Hilfe der Apache Spark Machine Learning Library (MLlib) relativ leicht implementieren.

Fazit

Mit Hilfe der Choice-based Conjoint Analyse kann man die Relevanz von Attributen auf Basis der Kaufentscheidungen von Kunden im E-Commerce bestimmen. Das hilft bei der zielgerichteten Verbesserung der Stammdatenqualität.