top of page

#AI Nobrainer: Sie brauchen ein Data Dictionary. Jetzt!

  • abbrivia
  • 2. Dez. 2019
  • 2 Min. Lesezeit

Aktualisiert: 5. Dez. 2019

Ohne Kontext sind Daten wertlos. Daher ist das Konzept des Data Dictionary so wichtig. In 3 min erklären wir Ihnen wie Sie selbst eines erstellen.


Was ist ein Data Dictionary?


Vielleicht haben Sie es schon tausend Mal gehört, vielleicht zum ersten Mal: Das Data Dictionary.


Die Idee dahinter ist einfach: Wenn man seine Daten nicht kennt, kann man nicht viel damit anfangen. Es ist wie bei jeder Sprache: Wenn man die Bedeutung der Wörter nicht kennt kommt es Ihnen alles Spanisch vor. Um das Verständnis Ihrer Daten zu erfassen, empfehlen wir daher dringend ein Data Dictionary anzulegen.


Es gibt keine vernünftige Künstliche Intelligenz, Machine Learning oder Prognose-Modelle mit falschen oder missverstandenen Daten.


Wie erstellen Sie selbst ein Data Dictionary?


Schlicht und einfach - wie es ein Nobrainer sein sollte - öffnen Sie einfach Excel und fangen an, die Beschreibung Ihrer Daten dort einzufügen.


Es kann nur eine einfache Tabelle sein, wie jedes Wörterbuch der Paare "Wort - Bedeutung". Nur mit den Daten haben Sie einen Feld- oder Spaltennamen anstelle eines Fremdworts,

Haben Sie bemerkt, dass es zwei Spalten für die Anzahl der von einem Kunden gekauften Produkte gibt? Nun, das liegt daran, dass einige Leute mehr Produkte kaufen, als sie behalten wollen. Dies ist sehr häufig in der Modebranche und die Verkäufer sind tatsächlich die Förderung dieses Verhaltens.


Woher wissen Sie, was diese Zahl in einer Spalte bedeutet, ohne ein Data Dictionary? Sagt Ihnen num_prd_agg oder num_prd_curr viel? Ich schätze - nein, nicht wirklich. Und diese beiden sind noch recht systematisch definierte Namen.


Zum Beispiel möchten Sie eine Kennzahl wie eine Marge pro verkauftem Produkt berechnen. Sie bekommen ein komplett wertloses Ergebnis, wenn eine falsche Spalte gewählt wurde.


Mit der "aufgeblähten" num_prd_sum würde die Marge viel geringer ausfallen, als wenn die richtige num_prd_curr verwendet würde ("saubere" Anzahl von Produkten).


Was sollten Sie also tun?

Wenn Sie also ein Manager mit Datenanalysten in Ihrem Team sind, bitten Sie ihn, ein Data Dictionary für Sie und alle anderen, die Daten in Ihrem Unternehmen verwenden, zu erstellen und zu pflegen. Wenn Sie nur eine Sache in einem Monat mit Daten machen können - erstellen und teilen Sie ein Data Dictionary. Bitten Sie andere, bei der Ablage mitzuwirken.


Sie werden uns später für diesen Vorschlag danken (und sich selbst dafür, dass Sie diesem Rat gefolgt sind).


Noch Fragen? Wir helfen gerne. Sprechen Sie uns an.

 
 
 

Commentaires


© 2020 Abbrivia.

bottom of page