Titelbild-Dark-Data-Big-Data-Daten-Comupter-Programmierung-pixabay-1486361-markusspiske

09.12.2019 – Lesezeit: 4 Minuten

Geschäftsführung / Technologie

Leitfaden: So optimieren Sie mit Open Data Ihre Datenqualität

Nicht alle Daten sind gleich. Wer gute Analyseergebnisse erzielen will, ist auf qualitativ hochwertige Daten angewiesen. Wie mit Open Data sich die Datenqualität verbessern lässt, zeigen verschiedene Leitfäden, die wir in diesem Artikel für Sie aufbereitet haben.

Wie man in den Wald hineinruft, so schallt es heraus – oder auf Englisch „Garbage in, Garbage out“. Gute Analyseergebnisse bedingen hohe Datenqualität, also Daten, die gültig, verifiziert und aktuell sind. Das heißt beispielsweise bei Kundendaten, dass die Adresse eine korrekte und tatsächlich vorhandene Postleitzahl aufweisen sollte. Nun sind Kundendaten strukturierte Daten, die in einer Datenbank abgelegt sind. Dort ist der Datenabgleich noch relativ einfach. Schwieriger wird es bei unstrukturierten Daten, die per Big-Data-Analyse ausgewertet werden sollen. Aber auch hier ist es möglich, die Datenqualität entscheidend zu verbessern. Das Zauberwort dafür lautet Open Data.

Metadaten als Schlüssel zur Datenqualität

Grundsätzlich werden Daten in unbearbeiteter Form als Rohdaten bezeichnet. Wenn diesen Rohdaten beschreibende Informationen, also Metadaten, zugeordnet werden, dann werden sie zu qualitativ höherwertigen Mehrwertdaten. Auch hierfür ein einfaches Beispiel: Eine Bilddatei ist einfacher zu identifizieren, wenn klar ist, wann die Aufnahme erstellt wurde und welche Personen oder Sachen abgebildet sind. Diese Informationen sollten in den Metadaten festgehalten werden. Doch ist das bei vielen Daten nicht so einfach wie bei dem Beispiel der Bilddatei. Woran erkennt man also, dass die Daten eine gute Qualität haben?

Um dieses Problem zu lösen, haben verschiedene Organisationen und Institute Leitfaden aufgestellt, die die Anforderungen für eine gute Datenqualität aufzeigen sollen. Eine davon ist die Europäische Kommission (PDF). Diese hat folgende Dimensionen der Datenqualität festgelegt.

  • Genauigkeit: Stellen Sie die Daten Objekte oder Ereignisse aus der realen Welt richtig dar?
  • Konsistenz: Enthalten die Daten keine Wiedersprüche?
  • Verfügbarkeit: Können die Daten jetzt und auf Dauer abgerufen werden?
  • Vollständigkeit: Umfassen die Daten alle Datenelemente, die ein Objekt oder Ereignis darstellen?
  • Konformität: Folgen die Daten anerkannten Standards?
  • Glaubwürdigkeit: Basieren die Daten auf vertrauenswürdigen Quellen?
  • Verarbeitung: Sind die Daten maschinenlesbar?
  • Relevanz: Umfassen die Daten eine angemessene Menge an Daten?
  • Rechtzeitigkeit: Stellen die Daten die derzeitige Situation dar und werden sie früh genug veröffentlicht?

Fünf Sterne für hohe Datenqualität

Das Fraunhofer Institut hat ebenfalls einen Leitfaden für qualitativ hochwertige Daten und Metadaten (PDF) erstellt. Dort wird das im Jahr 2001 von Tim Berners-Lee konzipierte Fünf-Sterne-Modell für Datenqualität und Open Data propagiert. Demnach sollten Daten mit einer offenen Lizenz versehen, wiederverwendbar, offen, eindeutig identifizierbar und mit anderen Daten vernetzt sein. Diese fünf Stufen sind kaskadierbar, bauen also aufeinander auf.

Das Fraunhofer Institut betont, dass für qualitativ hochwertige offene Daten die Bereitstellung unter offener Lizenz in einem maschinenlesbaren Format von besonderer Bedeutung ist. Die einzelnen Qualitätsdimensionen sind abhängig vom jeweiligen Einsatzzweck. So können beispielsweise Daten, die mehrere Jahre alt sind und historische Begebenheiten beschreiben, durchaus immer noch aktuell genug sein, während Fahrplandaten oft schon viel früher als überholt gelten.

Um die Aktualität sicherzustellen, sollten die Daten regelmäßig überprüft werden. Außerdem sollte bewertet werden, ob die Daten auch fehlerfrei und genau sind. Bei Datumsangaben sollte darauf geachtet werden, dass diese zur internationalen Norm ISO 8601 konform sind. Das gleiche gilt entsprechend für andere anerkannte Standards.

Ein weiterer Punkt ist, dass die Daten widerspruchsfrei sein sollten, sowohl die eigentlichen Daten als auch die Metadaten. Ursprung, Originalität und Veränderungen der Daten sollten nachvollziehbar gemacht werden, damit die Transparenz und Glaubwürdigkeit der Daten gestärkt wird. Außerdem empfiehlt es sich, jeder Ressource einen Status zuzuweisen. Ebenso wichtig sind Vollständigkeit und Verständlichkeit.

Auch die Metadaten müssen beachtet werden, Grundsätzlich gilt, dass Metadaten stets aktuell, inhaltlich richtig und zutreffend sein sollten. Daher empfiehlt es sich, Metadaten in regelmäßigen Abständen zu überprüfen und im Falle von Änderungen zu aktualisieren.

Bundesregierung propagiert Open Data

Die Bundesregierung betont die Wichtigkeit von Open Data. Für die öffentliche Verwaltung gibt es auf dem Portal GovData umfassende Informationen zum Thema Open Data sowie festgelegte Standards. Zum Beispiel wurde dort der DCAT-AP.de als formaler Metadatenstandard für offene Verwaltungsdaten festgelegt, der mittlerweile in der Version 1.0.2 vorliegt. Damit das Prinzip verständlich ist, gibt es ein Erklärungsvideo auf YouTube, in dem werden die Vorzüge von DCAT-AP.de allgemeinverständlich beschrieben werden. Damit sollte der Datenaustausch europaweit funktionieren. Ein Vorteil von GovData besteht darin, dass es als Prüfportal für die Datenqualität eingesetzt werden kann.

Open Data in Unternehmen

Grundsätzlich ist Open Data aber nicht nur ein Thema für die öffentliche Verwaltung, sondern auch für Unternehmen. In der Broschüre „Open Data in Deutschland“ (PDF) wird ausdrücklich darauf hingewiesen, dass offene Daten für Unternehmen ein erhebliches Einsparpotential bedeuten, da die Datenanalysen effizientere sind und aus diesen dann effektivere Schlüsse gezogen werden können. Aber es gibt auch noch viele Hindernisse, die die Akzeptanz von Open Data in kleineren und mittleren Unternehmen erschweren. Dazu zählen fehlende Kompetenzen, eine IT-Landschaft, die nicht auf Big-Data-Analyse ausgerichtet ist, unzureichende Datenqualität sowie mangelnde Finanzkraft und Risikobereitschaft. Es muss noch mehr Aufklärungsarbeit geleistet werden, um die Vorzüge von Open Data für Unternehmen klarer herauszustellen.

All for One Group fördert Datenqualität und Geschäftserfolg

Die All for One Group, führende IT- und Consulting-Gruppe, hilft kleinen und mittleren Unternehmen dabei, das Beste aus ihren Daten herauszuholen. Die Experten für Open Data haben umfassende Erfahrungen aus zahlreichen Big Data und Open Data Projekten gesammelt. So ist gewährleistet, dass sich Projekterfolge rasch einstellen und der Weg zum datengetriebenen Unternehmen geebnet wird.

Auch für Reporting und Analyse bietet die All for One Group eine helfende Hand, um zum Beispiel Informationen zielgruppengerecht und benutzerfreundlich zu visualisieren, Berichte und Analysen möglichst schnell und flexibel aufzubereiten und dadurch einen tiefen Einblicke in Daten zu gewinnen. Was hinter dem Elektronischen Datenaustausch (EDI) steckt, erfahren Sie in diesem Artikel.

Quelle: Titelbild pixabay, markusspiske