Datenmanagement für die Bereitstellung offener Verwaltungsdaten
So gelingt der Einstieg: Schritt für Schritt einfach erklärt
- Die Einführung eines Datenmanagements hilft Verwaltungen dabei, Open Data-Aktivitäten dauerhaft voranzutreiben und die mit der Bereitstellung verbundenen Aufgaben effizient umzusetzen.
- Ein systematischer Umgang mit den eigenen Daten ist zudem nicht nur im Hinblick auf die Veröffentlichung von Open Data relevant: Geschäftsprozesse können schneller an neue Anforderungen angepasst werden, wenn Wissen über die vorhandenen Daten, ihre Qualität, Prozesse der Datenverarbeitung sowie Potentiale und Grenzen einer Weiterverwendung vorhanden sind.
Mit einem guten Datenmanagement können die Voraussetzungen für eine Optimierung vieler nachgelagerter Prozesse gebildet und die Bereitstellung der Verwaltungsdaten als Open Data effizienter umgesetzt werden. In diesem Beitrag zeigen wir, wie eine praktische Umsetzung des Datenmanagements in Verwaltungen und Unternehmen der Daseinsvorsorge erfolgen kann und welche relevanten Schritte erforderlich sind.
Der Zyklus des Datenmanagements: Bausteine einer Datenverwaltung
Gleich mehrere Bausteine können die Bereitstellung offener Daten ermöglichen und vereinfachen. Der hier beschriebene Datenmanagement-Zyklus bildet daher alle Prozessschritte ab, die man benötigt, um offene Verwaltungsdaten über das Open Data Portal des Landes Nordrhein-Westfalen zur Verfügung zu stellen. Dabei gilt zugleich die Einladung: Der Datenmanagement-Zyklus darf und soll für die Arbeit in der eigenen Verwaltung als Baukasten angesehen werden, bei dem man sich an den notwendigen Stellen bedienen kann.
Schritt 1: Geeignete Datensätze identifizieren
Welche Datensätze liegen in Ihrer der Behörde vor und welche sind für eine Veröffentlichung im Sinne von Open Data geeignet? Um sich einen Überblick zu verschaffen und relevante Datensätze zu identifizieren, haben sich in der Praxis drei Such- und Analysemethoden bewährt:
- Recherchieren Sie, welche Daten bereits veröffentlicht, aber noch nicht „offen“ im Sinne von Open Data sind. Das können Daten sein, die für Berichte oder für schriftliche Anfragen verarbeitet werden und auf externen Webseiten veröffentlicht sind, aber noch nicht in einem offenen Format vorliegen. Suchmaschinen oder Webcrawler, mit denen Sie Domains nach bestimmten Dateitypen durchsuchen können (bspw. nach PDF-Dokumenten), helfen Ihnen dabei, Daten von Webseiten zu erfassen.
- Eine hausinterne Abfrage ist die zweite bewährte Vorgehensweise. Dabei melden die Fachabteilungen ihre vorhandenen Datensätze (zum Beispiel mithilfe eines kurzen Fragebogens). Aus den gesammelten Rückmeldungen entsteht ein Datenkatalog für alle organisationsweit vorliegenden Datensätze.
- Ergänzend können auch sogenannte „Dateninterviews“ geführt werden. In diesen Einzel- oder Gruppeninterviews mit Datenverantwortlichen aus den Fachorganisationseinheiten können Daten, bei denen eine hohe interne oder externe Nachfrage besteht und die daher besonders für eine Veröffentlichung geeignet sind, identifiziert werden.
Schritt 2: Klären Sie die vorhandenen Rechte ab
Damit stellen Sie sicher, dass der Veröffentlichung der Datensätze auch rechtlich nichts im Wege steht. Neben datenschutzrechtlichen Aspekten ist z. B. auch zu prüfen, ob ggf. Urheberrechte ein sogenannter Hinderungsgrund sind, die einer Veröffentlichung entgegenstehen. Hier empfehlen wir Ihnen unsere praktische Checkliste zur systematischen Prüfung.
Tipp: Der Praxisleitfaden für Datensouveränität vermittelt anschaulich und mit vielen Beispielen die wichtigsten rechtlichen Grundlagen der Datennutzung. Reinschauen lohnt sich!
Schritt 3: Wählen Sie die richtigen Dateiformate für die Veröffentlichung
Maschinenlesbar, in offenen Datei- oder Schnittstellenformaten und vorrangig über offene Schnittstellenformate bereitgestellt – und für die Praxis ganz konkret im Überblick: In der Open Data-Verordnung NRW werden geeignete Formate aufgelistet.
Wer besser verstehen will, wie nützlich und leicht wiederverwendbar seine Daten sind und was Stellschrauben sind, um die größtmögliche Offenheit zu erreichen, sollte zusätzlich das 5-Sterne-Modell nutzen. Im 5-Sterne-Modell von Sir Tim Berners-Lee wird die Zugänglichkeit und technische Verwendbarkeit eines Datensatzes auf einer Skala von „online verfügbar“ (1 Stern) bis zu „verknüpft und Teil des Webs der Daten“ (5 Sterne) bewertet. Das Modell hilft dabei, auch mit Blick auf unterschiedliche Nutzerinnen und Nutzer offener Daten zu entscheiden, wie offen die Daten in dem jeweiligen Fall sein müssten und wie sie aufbereitet sein sollten, um die Qualität und Weiternutzung zu unterstützen.
Schritt 4: Nutzungs- und Lizenzbestimmung für die Weiternutzung der Open Data-Datensätze festlegen
Als Bereitstellerin und Bereitsteller von Daten legen Sie bei der Veröffentlichung von Daten mit Nutzungsbedingungen fest, unter welchen Bedingungen ein Datensatz verwendet werden darf. Folgen Sie dabei am besten dem Motto: So einfach und einheitlich wie möglich!
Die Lizenzen
- Datalizenz Deutschland – Zero – Version 2.0
- CC0 1.0 Universell (CC0 1.0) Public Domain Dedication
- Datenlizenz Deutschland – Namensnennung – Version 2.0
- Creative Commons Namensnennung 4.0 International (CC BY 4.0)
sind dabei für Landesbehörden in der Regel verpflichtend und für Kommunen empfohlen.
Schritt 5: Metadaten für die Datensuche definieren
Daten lassen sich erst finden, wenn man nach ihnen suchen kann. Hier kommen die Metadaten ins Spiel: Metadaten sind Daten, die Informationen über den Inhalt eines Datensatzes liefern. Diese helfen dabei, Daten „sortiert“ zugänglich zu machen, und bei der Datensuche möglichst schnell abzuschätzen, ob eine gefundene Ressource dem Gesuchten entspricht.
Gut ist, wenn alle die gleiche (Metadaten-)Sprache sprechen: Für die Veröffentlichung von Metadaten offener Verwaltungsdaten gibt es den deutschen Metadatenstandard DCAT-AP.de, eine Ableitung des europäischen Standards DCAT-AP. Der Standard legt sowohl die notwendigen Inhalte der Metadaten fest (z. B. Angaben zum Datenbereitsteller, Titel des Datensatzes, Angabe der Lizenz, Angabe des Veröffentlichungsdatums), als auch ein kontrolliertes Vokabular, das verwendet werden soll, um diese Angaben zu tätigen.
Tipp: Beim Hinterlegen eines Metadatensatzes werden einige Informationen benötigt, damit dieser Datensatz später z. B. in der Open.NRW-Datenbank auch gut gefunden werden kann. Am besten machen Sie sich im Vorfeld bereits Gedanken zu den Inhalten, die hier hinterlegt werden sollen, dann geht die Eingabe später schneller von der Hand.
Schritt 6: Bestehende Datenberichtspflichten mitdenken und doppelte Arbeit vermeiden
In jeder Verwaltung gibt es sie: Berichtspflichten, also Verwaltungsabläufe, die regelmäßig zu einem vorgegebenen Zeitpunkt durchgeführt und an eine verantwortliche Stelle übersendet werden müssen.
Bestehende Datenberichtspflichten festzustellen und in die Open Data-Veröffentlichungspolitik einzubeziehen, kann zu einer Effizienzsteigerung beitragen, wenn bereits existierende Kanäle und Prozesse mit- oder nachgenutzt werden. Diese Berichtspflichten können zudem bei Automatisierungsprozessen eine wichtige Grundlage bilden, wenn Schnittstellen geschaffen werden, um Daten direkt in ein Open Data-Portal zu überführen.
Schritt 7: Automatisierungspotentiale in der Datenverwaltung erkennen
Wiederkehrende Prozessschritte im Datenmanagement zu identifizieren, ist der erste Schritt, um diese zu automatisieren und dadurch die Arbeitsprozesse in der Verwaltung zu erleichtern und zu beschleunigen.
So gibt es Automatisierungspotentiale unter anderem bei:
- der automatisierten Ableitung der Metadaten aus einem externen Metadatensystem,
- der automatisierten Ableitung der Metadaten aus den Daten,
- der automatisierten Aktualisierung der Metadaten im Open.NRW-Portal,
- der automatisierten Bereitstellung der Metadaten im Metadatenkatalog des Open.NRW-Portals.
Schritt 8: Datensätze und Metadaten durch Dateninfrastruktur veröffentlichen
Um Datensätze zu veröffentlichen, ist eine sogenannte Dateninfrastruktur nötig. Am Beispiel Open.NRW als zentrales Open Data-Portal des Landes erläutert: Die Veröffentlichung der Datensätze selbst erfolgt durch die Datenbereitstellerinnen bzw. Datenbereitsteller über eine eigene Dateninfrastruktur der Behörde. Dateninfrastruktur heißt, dass die originären Daten online zur Verfügung stehen und abrufbar sind. Behörden können dann ihre Datensätze über Verlinkungen (Zugangs-URL) in den Metadaten zu der jeweiligen Quelle des Datensatzes im Open.NRW-Portal bereitstellen und auffindbar machen.
Schritt 9: Qualitäts- und Wissensmanagement von Daten
Das Daten-Qualitätsmanagement ist ein Querschnittsthema über alle Phasen des Datenmanagement-Prozesses hinweg. Schließlich liegt das erste Ziel klar auf der Hand: Die Daten vor der Veröffentlichung in einen qualitativ hochwertigen Zustand zu bringen und damit zu vermeiden, dass
- Daten unvollständig, veraltet oder fehlerhaft sind,
- Titel und Beschreibungen fehlen oder unvollständig sind
- die Daten in proprietären und nicht maschinenlesbaren Formaten veröffentlicht werden.
Aber auch nach der Veröffentlichung der Daten sollte eine kontinuierliche Qualitätssicherung erfolgen. Dazu gehört beispielsweise eine regelmäßige Überprüfung der Metadaten auf Aktualität und Korrektheit. Das Open.NRW-Portal bietet den Datenbereitstellerinnen und -bereitstellern übrigens die Möglichkeit, mittels der sogenannten Metadata-Quality-Assessment-Komponente (MQA) die Qualität der eigenen Metadaten zu analysieren und nachzuvollziehen, inwieweit diese genutzt und verbessert werden können.
Fazit zum Datenmanagement für die Bereitstellung offener Verwaltungsdaten
Ein Datenmanagement lohnt sich für alle Verwaltungen und Unternehmen der Daseinsvorsorge – für die Bereitstellung von Open Data und auch darüber hinaus: Umfassende Informationen zu vorhandenen Datensätzen und möglicherweise bestehenden Datenlizenzen sind notwendig, um rechtlich bestehenden Veröffentlichungspflichten nachkommen zu können.
Umgekehrt: Müssen Daten vor der Veröffentlichung noch aufbereitet werden oder muss mit entsprechender Expertise geprüft werden, ob Hinderungsgründe vorliegen, kann dies im Einzelfall in erheblichem Umfang personelle und sachliche Mittel in Anspruch nehmen.
Effiziente Prozesse und das Wissen um das Vorliegen von Datensätzen fördern aber nicht nur die Erfüllung von Veröffentlichungspflichten, sondern können auch unnötige Erhebungen von Daten, die bereits vorhanden sind, verhindern und damit Aufwände sparen. Ein weiterer Vorteil: Die Daten können innerhalb der Verwaltung besser genutzt werden.
Tiefer einsteigen? Mehr über den dargestellten Datenmanagement-Zyklus finden Sie im Praxisleitfaden „Open Data nachhaltig umsetzen - Einstieg in das Datenmanagement für die Bereitstellung offener Verwaltungsdaten aus Nordrhein-Westfalen“.