Projekttitel: 



deutscher ProjekttitelFormale Dokumentation von Datentransformationen
englischer ProjekttitelFormal documentation of data transformation processes



Ideengeber*in:


NameThorsten Reitz
Organisationwetransform GmbH
AdresseFraunhoferstr. 5
E-Mail (optional)tr@wetransform.to
Telefon (optional)

+49 179 59 08 203

Website (falls vorhanden)www.wetransform.to

Potenzielle Projektpartner*innen


In diesem Projekt werden wir mit mindestens zwei Organisationen zusammenarbeiten, die Industrie- oder Community-Standards entwickeln, um jeweils Abbildungen zwischen verschiedenen Standards formal zu dokumentieren.

  • Open Geospatial Consortium: Abbildung des BIM-Standards IFC auf CityGML 3.0
  • Arbeitsgemeinschaft der Deutschen Vermessungsverwaltungen: Abbildung des deutschen Standards GeoInfoDok 6.0.1 auf den europäischen Standard INSPIRE 4.0
  • Fraunhofer IGD: Wissenschaftliche Begleitung

Ausgangslage


Die Integration verschiedener IT-Systeme und damit deren Interoperabilität entlang von Prozessketten wird zu einem immer wichtigeren Faktor. Betriebe und Verwaltungen müssen Daten oft standardkonform bereitstellen, um z.B. Vorschriften aus Emissionsschutzgesetzen wie der Industrial Emissions Directive zu erfüllen. Gleichfalls werden Daten häufig von einem Altsystem in ein neues migriert. In all diesen Szenarien müssen Ausgangsdaten aus der bestehenden Struktur, Semantik und Kodierung in eine neue Struktur, Semantik und Kodierung überführt werden.

Um solche Datentransformationen umzusetzen, kommen verschiedenste Technologien zum Einsatz, von ETL-Werkzeugen über Datenbankskripte bis hin zu Webdiensten. Um die fachlichen Anforderungen an solche Transformationsprozesse zu definieren, werden heute in der Regel informelle Methoden gewählt, wie die Verwendung von Excel-Matching-Tabellen. Wie sich gezeigt hat, führen diese informellen Formate meist zu unvollständigen oder widersprüchlichen Anforderungen. In unseren Projekten stellen uns Kunden oft solche informellen Abbildungstabellen zur Verfügung. Meist decken diese nur 30 bis 50% der Anforderungen korrekt ab. In der Vergangenheit wurde mit mehreren formalen Sprachen experimentiert, um solche Prozesse zu spezifizieren und zu dokumentieren. Dazu gehörte das Rule Interchange Format (RIF). Diese haben sich aber aufgrund der technischen Hürden weder im Bereich Spezifikation noch im Bereich Dokumentation durchsetzen können.

Viele der für die Datentransformation verwendeten Werkzeuge haben nur beschränkte Funktionen für die Dokumentation des Transformationsprozesses (im folgenden "DT-Prozess"), was die Wartbarkeit sowie die fachliche Nachvollziehbarkeit verringert. Letztendlich wird die Dokumentation des DT-Prozesses meist neben der Umsetzung geführt, was bedeutet, dass die Dokumentation meist die tatsächliche Transformation nicht vollständig beschreibt. Wir schlagen daher vor, eine formale Dokumentation aus den eigentlichen DT-Prozess abzuleiten. Diese ist so strukturiert, dass sie sich auch als Spezifikationssprache für beliebig komplexe Datentransformationen eignet.

Ansatz

Um eine formale, generierbare Dokumentation zu erstellen, bauen wir auf dem deklarativen Paradigma auf. Unser Ansatz basiert auf der Expressive Declarative Ontology Alignment Language (EDOAL). Wir haben diesen Ansatz der Abbildung von Elementen aus Datenmodellen gleich welcher Art aufgeriffen und stellen seit 2009 mit hale studio ein Open-Source-Werkzeug bereit, mit dem Anwender solche Alignments schnell und einfach erstellen können. Diese Alignments sind ausführbar, d.h. sie können zur Transformation konkreter Datensätze verwendet werden. Die transformierten Daten sind validierbar. Durch die Transformation und Validierung kann gezeigt werden, ob ein Alignment in sich widerspruchsfrei ist und ob das Ergebnis korrekt ist. Aus den so erstellten Alignments kann dann die formale Dokumentation generiert werden. Die Dokumentation kann außerdem Fehlanpassungen festhalten, also Auswirkungen auf die Datenqualität entlang typischer Parameter wie der numerischen Genauigkeit, der Klassifizierungsgenauigkeit, oder der Vollständigkeit. Diese Fehlanpassungen werden zusammen mit der jeweiligen fachlichen Abwägung sowie ihrer Auswirkungen auf die Datennutzbarkeit dokumentiert.

Meist gibt es auch zur eigentlichen Transformationausführung nur unzureichende Informationen. Dieses Projekt beinhaltet daher auch den Vorschlag, standardisierte Metadaten zu transformierten Datensätzen hinzuzufügen, um zu beschreiben, wie diese transformiert wurden, sowie um Verweise auf die Dokumentation einzufügen.

Beispiel für die interaktive Dokumentation eines Transformationsprojekts

Diese Dokumentation lässt sich auch um dynamische Funktionen für die Kollaboration erweitern, wie das Anlegen von Kommentaren und Aufgaben. Weiterhin lässt sich die Auswertung durchgeführter Transformationen mit der Dokumentation verknüpfen, so dass in der Dokumentation an der relevanten Stelle direkt auftretende Fehler festgehalten werden können.

Wir haben das Verfahren in den vergangenen fünf Jahren selbst in mehr als 200 Projekten eingesetzt, u.a. mit Daten zu BIM, GIS, Health, Verkehr & Logistik sowie CRM und ERP. Bei zahlreichen dieser Projekte ging es um die abbildung nationaler Standards auf internationale Standards, wie z.B. von XPlanGML auf INSPRIE PLU. Das Verfahren ist somit robust und bewährt.

Literatur

Linked data meets ontology matching: enhancing data linking through ontology alignments. François Scharffe, Jérôme Euzenat. Proc. 3rd international conference on Knowledge engineering and ontology development (KEOD), Oct 2011, Paris, France. pp.279-284.

Applying instance visualisation and conceptual schema mapping for geodata harmonisation, Thorsten Reitz, Arjan Kuijper - Advances in GIScience, 2009

An environment for the conceptual harmonisation of geospatial schemas and data, Thorsten Reitz, Simon Templer, Multidisciplinary research on geographical information in europe and beyond. Proceedings of the AGILE’2012 International Conference on Geographic Information Science, Avignon, pp. 63-68

Nutzen


Unser Ziel ist es, die Interoperabilität von Daten zu erhöhen, insbesondere bei der Umsetzung offener Standards wie TN-ITS, INSPIRE, IFC oder CityGML. Dafür ist es wichtig, dass die Überführung der originalen Daten in das neue Standardformat möglichst optimal durchgeführt wird. Außerdem soll der Aufwand in der Datenstandardisierung und -harmonisierung sowohl bei der Erstentwicklung als auch in der Wartung verringert werden, um die Eintrittshürden in offene Infrastrukturen zu verringern. Davon profitieren alle Organisationen, die solche Standards umsetzen, oder allgemein Daten mirgieren oder integrieren müssen.

Worin liegt das Optimierungspotential?

  • Effektivere Entwicklung von Datentransformationsprozessen durch rasche fachliche und technische Abstimmung
  • Einfachere Wartbarkeit von Datentransformationsprozessen durch bessere, aktuellere Dokumentation
  • Bessere Transparenz und Einschätzbarkeit der Datenqualität
  • Besseres Risikomanagement bei der Migration von Daten

Wer profitiert von der Innovation und dem Standard?

Von diesem Standard und der Innovation profitieren mindestens vier Gruppen:

  1. IT-Dienstleister (intern oder extern), da sie eine genauere Spezifikation erhalten und somit geringere Risiken bei der Entwicklugn von DT-Prozessen haben.
  2. Dateneigentümer wie Verwaltungen und Unternehmen, da der Gesamtaufwand für die Entwicklung der DT-Prozesse sowie deren Wartung deutlich sinkt.
  3. Datennutzer in offenen Infrastrukturen, da sie nachvollziehen können, wie die Daten verarbeitet wurden, und wo sich durch die Verarbeitung Einschränkungen im Hinblick auf die Datennutzbarkeit ergeben.
  4. Datennutzer, die Daten für KI-Anwendungen oder wissenschaftliche Auswertungen aufbereiten wollen, da sie so ihre Vorarbeiten (data cleaning/filtering/selection) formal dokumentieren können, so dass sie später nachvollziehbar sind.
  5. Anbieter von Datentransformationswerkzeugen, da sie ihre Tools durch diese Dokumentation aufwerten können.

Wie werden die Ergebnisse nach Projektabschluss verwertet?

Unsere Absicht nach Projektende ist es, das Verfahren zur standardisierten Dokumentation von DT-Prozessen und fachlichen Datenmodell-Abbildungen auf internationaler Ebene einzubringen, insbesondere beim Open Geospatial Consortium (OGC) sowie ggf. über Partern bei ISO TC/211. Zur wirtschaftlichen Verwertung streben wir an, unsere eigene Software konform zu diesem Standard zu machen.

Skizzieren Sie bitte die europäische/internationale Bedeutung

Wir arbeiten heute in erster Linie an der Umsetzung europäischer oder globaler Standards, insofern hat das Thema direkt eine internationale Komponente. Im Projekt werden wir die Anforderugnen an die Internationalisierung berücksichtigen.

Bestehen Einreichungsmöglichkeiten bei Europäischen und internationalen Normungsorganisationen (CEN/CENELEC/ISO/IEC)?

Siehe auch Verwertung: ISO TC/211 übernimmt oft OGC-Standards, und INSPIRE wiederum übernimmt ISO-Standards. Somit zielen wir darauf, dass das beschriebene Verfahren in unserem Kernmarkt im Wortsinne zum "Standard" wird.

Skizzieren Sie bitte die Markt- und gesellschaftliche Relevanz

Der Bedarf nach Integration und Migration von Daten wächst sowohl in der Industrie als auch in den Verwaltungen rasch. Viele Organisationen stehen vor einem Problem, da sie intern nicht die Ressourcen haben, um exponentiell ansteigene Zahlen von Systemen und Standards zu integrieren. Der hier vorgeschlagene Ansatz kann dabei helfen, offene Standards für den Datenaustascuh effektiver zu implementieren, und Daten aus vielen Systemen gemeinsam als einen harmonisierten Datensatz zu nutzen. Dies wiederum ermöglich standardisierte Tools und Prozesse, wo heute oft noch jeder auf individuellen Werkzeugen aufbaut, und sich Weiterentwicklungen nur langsam verbreiten können.

Kompetenzen und Ressourcen


Wetransform hat es sich zur Mission gemacht, die Umsetzung von offenen Standards für den Datenaustausch zu vereinfachen. Wir unterstützen zur Zeit mehr als 200 Organisationen bei der Umsetzung internationaler und nationaler Standards, insbesondere in den Bereichen Umwelt, Vermessung und Verkehr/Logistik. Mehrere Mitarbeitende waren oder sind in Normungsgremien (meist in Industriearbeitsgruppen) tätig. In den letzten fünf Jahren haben Mitarbeitende von wetransform in den folgenden Organisationen an Standards gearbeitet:

  • INSPIRE MIG (GeoJSON Encoding Rule, Fitness for Purpose)
  • OGC (i3s, CityGML)
  • eCH-0118 (GML-Kodierungsregel für INTERLIS)
  • Übersetzung und Überführung von ISO 19115-2

Das oben beschriebene Verfahren basiert auf der interaktiven Dokumentation, die hale studio, unser Open-Source-ETL-Werkzeug, generiert. Was wir also einbringen können, ist einerseits die Erfahrung aus der Standardierung, andererseits aus zahlreichen Projekten zur optimalen Umsetzung von Standards.

Standardisierungsscope


Der geplante Standard definiert einen Prozess für die Spezifikation und Dokumentation von Datentransformationsprozessen sowie deren Auswirkungen auf transformatierte Datensätze. Er betrifft alle Anwendungsbereiche, in denen Austauschformate für Standards definiert werden, in denen Daten migriert oder integriert werden.


Error rendering macro 'excerpt-include'

User 'null' does not have permission to view the page.