Projekttitel: Big Earth Data für KI
| deutscher Projekttitel | Big Earth Data für KI |
| englischer Projekttitel | Big Earth Data for AI |
Ideengeber*in:
| Name | Peter Baumann |
| Organisation | rasdaman GmbH |
| Adresse | Hans-Hermann-Sieling-Str. 17 |
| E-Mail (optional) | baumann@rasdaman.com |
| Telefon (optional) | 01735837882 |
| Website (falls vorhanden) | www.rasdaman.com |
Kurzfassung
Ziel des Vorhabens ist die Erstellung einer DIN-SPEC für die interoperable Repräsentation von „Big Earth Data“, insbesondere raum-zeitliche „Datenwürfel“ (Datacubes), als Grundlage für Web-basierte Geo-Dienste und besser skalierende KI-Methoden. Dies betrifft u.a. optische und radar-basierte Satellitendaten und Satellitenbild-Zeitreihen, Wetter- und Klimadaten, Höhenmodelle, und viele weitere Geodaten von Ämtern (z.B. Deutscher Wetterdienst und Vermessungsämter) und Forschungseinrichtungen (z.B DLR).
Hierzu existiert bereits ISO 19123-2, die jedoch nicht mehr dem Stand der Technik entspricht. ISO TC211 WG6 plant daher eine Revision von 19123-2 und hat Peter Baumann, CEO der antragstellenden rasdaman GmbH, als Projektleiter bestellt.
Der vorliegende Antrag schlägt vor, daß rasdaman GmbH die entsprechende DIN-SPEC erstellt und diese dann vom DIN-Spiegelgremium als ISO IWD (Initial Working Draft) vorgeschlagen wird, um so den deutschen Beitrag zu dokumentieren. Aufgrund der langjährigen internationalen Standardisierungs-Erfahrung, der einschlägigen Vorarbeiten sowie der engen Zusammenarbeit mit den ISO und OGC Experten kann davon ausgegangen werden, dass diese DIN-SPEC i.w. unverändert als ISO-Standard übernommen werden wird.
Potenzielle Projektpartner*innen
Zur Einreichung der DIN SPEC sollen noch weitere Partner gewonnen werden, vorzugsweise aus dem Kreis der internationalen Coverage-Standardisierungs-Experten von ISO TC211, OGC und weiteren Kreisen. Die konkrete Auswahl ergibt sich jedoch erst im Lauf des Projekts, Kandidaten sind:
Graham Wilkes, ISO TC211 WG6 Convener, Canada
Douglas O’Brien, ISO TC211 WG6 Convener emeritus, Canada
Emmanuel Devys, IGN France und DGIWG, France
Vlad Merticariu, Jacobs University, Bremen, Germany
Ausgangslage
Situation & Bedarf
Geodaten, insbesondere Geo-Rasterdaten, sind hochkomplex. Dies liegt einerseits an der großen Vielfalt (etwa 1D Sensordaten, 2D Satellitendaten, 3D Satellitenbild-Zeitreihen, 4D Klimadaten, etc.), andererseits aber auch an der Vielzahl unterschiedlicher "gewachsener" Lösungen, welche sehr verschieden und in aller Regel nicht interoperabel sind. Sehr oft wird für einen Datendienst gleichzeitig der zu benutzende Client mitgeliefert, und der Client von Dienst A kann nicht an Dienst B ankoppeln. Dies bringt eine hohe Hürde in der Nutzung mit sich, und selbst für Experten gestaltet sich die Auswertung langwierig und aufwändig. Dies bedeutet, daß viele Auswertungen derzeit nicht stattfinden, daß Auswertungen nur auf begrenzten Datenvolumina stattfinden können - beispielsweise auf einem einzigen Satellitenbild von 100x100 km statt auf einem ganzen Kontinent. Insbesondere Zeitreihenanalyse (als wichtigste Voraussetzung für performantes "Big Data" Machine Learning) ist damit kaum möglich. Dies wird vom Antragsteller wissenschaftlich u.a. im Forschungsprojekt DeepRain in Zusammenarbeit mit dem Frschungszentrum Jülich, Deutscher Wetterdienst und Uni Osnabrück untersucht (Deep Learning für detailliertere Regenvorhersage in schwer simulierbaren montanen Regionen).
Stand der Technik & verwandte Standards
In der Standardisierung von Geodaten und –diensten bezeichnet "Coverage" [1] eine geographische Datenstruktur für raum-zeitlich ausgedehnte Phänomene, i.w. reguläre und irreguläre Gitter, Punktwolken und allgemeine Netze (math.: Polytope). Damit sind Coverages wesentlich für die "Big Earth Data" verantwortlich, u.a. Satellitenbilder, Klimasimulationen, Laserscan-Daten. Coverages erschließen sowohl menschlichen als auch maschinellen Nutzern den einfachen Zugang zu "Big Earth Data" über das korrespondierende Dienste-Modell, Web Coverage Service (WCS) [2]. Siehe [5] für einen detailliertere Diskussion.
Abb. 1: Beispiele Coverage-basierter Geodienste
OGC ist das wichtigste Gremium zur Standardisierung von Coverages.Das OGC Coverage Implementation Schema (CIS) definiert das Datenmodell, OGC Web Coverage Service (WCS) ist eine Suite von modularen Dienste-Sezifikationen, von einfacher Extraktion is hi zu Datacube Analytics mit Web Coverge Processing Service (WCPS) [3,4].
OGC CIS und WCS sind implementiert von einem Who's Who der Geoinformations-Technologie (sowohl open-source als auch proprietär), wie diese Übersicht von OGC zeigt. Startups wie CropMaps bis zu nationalen Datenzentren wie CODE-DE / DLR bieten Dienste auf Basis der Coverage Standards. Einige Zitate [3] mögen die Akzeptanz der OGC Coverage Standards belegen:
- "Web developers who have not heard of OGC standards before immediately feel at home with these coverage standards" -- Stephan Siemen, ECMWF
- "WCS is the natural way to deliver and exploit coverage data." -- Jordi Escriu, Facilitator INSPIRE Thematic Cluster #3: Elevation, Orthoimagery, Reference systems and Geographical grids
- "As a WCS the data is of most value" -- Perry Peterson, Pyxis Innovation
- "CIS 1.1 is what I've been waiting for." -- Kathi Schleidt, INSPIRE expert
- "CIS 1.1 addressed many of the issues faced with CIS 1.0 and GML 3.3 coverages in a neat way." -- Ilkka Rinne, INSPIRE expert
In Europa repräsentiert INSPIRE das legale Rahmenwerk für eine vereinheitlichte Geodaten-Infrastruktur, relevant für Landkreise bis hinauf zu nationale Behörden. INSPIRE stützt sich ebenfalls auf die Coverage-Standards, welche in voelfachen Anwendungsgebieten ("Themen") genutzt werden (Abb. 2).
Abb. 2: INSPIRE-Themen mit Coverages
ISO TC211 unternimmt ebenfalls Geodaten-Standardisierung, in enger Abstimmung mit OGC. Typischerweise übernimmt ISO OGC-Standards, nachdem sich diese über einige Zeit praktisch bewährt haben.
Die W3C Spatial Data on the Web Gruppe hat ebenfall eine Coverage-Definition vorgelegt. Diese ist jedoch nicht kompatibel mit OGC/ISO/INSPIRE, ist insgesamt sehr informell, unvollständig und fehlerbehaftet. Weiterhin wird kein entsprechende Dienstemodell (a la WCS) angegeben. Daher hat diese SPez8ifikation keine industrielle Bedeutung erlangt.
Referenzen:
[1] http://en.wikipedia.org/wiki/Coverage_data
[2] http://en.wikipedia.org/wiki/Web_Coverage_Service
[3] http://myogc.org/go/coveragesDWG
[4] http://www.opengeospatial.org/standards/wcs
[5] P. Baumann, D. Misev, V. Merticariu, B. Pham Huu: Datacubes: Towards Space/Time Analysis-Ready Data.. In: J. Doellner, M. Jobst, P. Schmitz (eds.): Service Oriented Mapping - Changing Paradigm in Map Production and Geoinformation Management, Springer Lecture Notes in Geoinformation and Cartography, 2018
Nutzen
Ziel
Ziel ist die Erstellung einer DIN-SPEC für raum-zeitliche Geodaten als Basis für die Erstellung eines ISO-Standards, welcher insbesondere Geo-KI besser unterstützen kann.
ISO hat bereits früher OGC CIS 1.0 übernommen, d.h.: OGC CIS 1.0 = ISO 19123-2. Parallel zu diesem Prozeß wurde in OGC CIS 1.1 entwickelt, welches einige wesentliche Fortschritte beinhaltet. ISO möchte daher das (überholte) 19123-2 um das (aktuelle) CIS 1.1 erweitern; dies durchzuführen ist Thema des vorliegenden Antrags. Das erfordert, zwei unterschiedliche Coverage-Versionen in einem neuen Dokument zu vereinigen (Abb. 3); die Konzepte beider Versionen an sich sind etabliert und stabil. Die Herausforderung besteht in der kohärenten Darstellung (aus 2 Standards mach 1) sowie der Integration in die ISO-spezifischen Mechanismen, z.B. das allgemeine Harmonisierte Modell von TC211. Ziel ist eine klarere, vereinfachte, und gleichzeitig mächtigere Daten-Modellierung für raum-zeitliche Datenwürfel.
Abb. 3: Schematische Darstellung der Arbeitsschritte: Vorarbeiten (schwarz) und Erstellung der DIN-SPEC (rot)
Die neuen Konzepte erlauben einfachere Handhabung, leichtere Implementierbarkeit bei gleichzeitig stark erweiterter Mächtigkeit. Es ist daher relativ sicher, dass die aktualisierte ISO 19123-2 ebenfalls breite Akzeptanz bei Implementierern finden wird; die OGC-Referenzimplementierung rasdaman hat General Grid Coverage bereits implementiert und evaluiert, und auch weitere Experten arbeiten bereits damit:
Worin liegt das Optimierungspotential?
Die neue DIN-SPEC soll Coverages mächtiger machen und gleichzeitig die Verarbeitung vereinfachen, und zwar sowohl für menschliche Nutzer als auch für Maschinen (insbesondere KI).
Der bisherige Coverage-Standard ISO 19123-2 musste - aus standardisierungspolitischen Gründen - einige Kompromisse machen, mit wesentlichen Nachteilen:
- Wichtige Anwendungsfälle sind nicht abgedeckt, z.B. Satellitenbildzeitreihen mit regulären räumlichen Achsen und irregulärer Zeitachse (Abb. 4)
- Inexakte Definition von irregulären Gittern
- Keine Unterstützung für Sensormodelle
- Keine Unterstützung für Interpolation (diskrete vs. kontinuierliche Coverages)
- Keine Unterstützung für wichtige Coverage-Strukturen (z.B. von INSPIRE gefordert): geometry / value pair list (für Streaming), gekachelte Rasterdaten, etc.
- Modellierung mit GML wird von Anwendern als umständlich moniert
- Keine Unterstützung der wichtigen neuen Formate JSON und RDF sowie Archivformate wie SAFE, welches von ESA routinemäig verwendet wird
Abb. 4: Beispiel regulärer und irregulärer Gitter, wie sie im neuen Standard vereinheitlicht modelliert werden können
Die neuen Konzepte, welche in OGC CIS 1.1 im zwischenzeitlich standardisierten Konzept der "General Grid Coverage" vom Einreicher dieses Antrags erarbeitet worden sind, sollen in ISO 19123-2 eingepflegt werden, so daß Nutzer (s.u.) einen One-Stop-Shop für technisch aktuelle, interoperable Coverage-Definitionen erhalten.
Wer profitiert von der Innovation und dem Standard?
- KI Algorithmen können schneller, einfacher, und interoperabler werden, da die Strukturen gut für KI geeignet sind (raum-zeitlich referenzierte Tensoren als Basis für Lineare Algebra).
- Geodaten-Anbieter profitieren von den klaren Definitionen: meine Daten sind für Nutzer einfacher zugreifbar und verarbeitbar, was Kunden gerne zu mir kommen läßt. Ich kann, aufgrund der Interoperabilität, zu meinen Datenzugängen eine Vielzahl von standardkonformen Clients anbieten. Die Administration ist übersichtlich, und ich kann ausgebildete Fachkräfte finden, welche die zugrundeliegenden Standards bereits kennen.
- Geodaten-Nutzer profitieren von der Einheitlichkeit der Diensteangebote: gehe ich zum nächsten Anbieter, werden die Daten mit denselben Mechanismen angeboten. Ich kann aus diversen Clients auswählen, von einfacher Navigation über Virtuelle Globen bis hin zu Analytik und KI mit python, R usw. Endlich kann ich mit Machine Learning an den riesigen weltweiten Datenpopol herangehen und bessers Verständnis aus den Daten ziehen.
- Studenten profitieren von den klaren Konzepten und der universellen Anwendbarkeit des Gelernten: Der Umgang mit Datenwürfeln als "Big Data" ist einfach, logisch und leicht erlernbar. Der Markt benutzt genau die Prinzipien, die ich gelernt habe, ich kann mit einer Vielzahl Werkzeug direkt loslegen.
- Ausbilder profitieren von den aufbereiteten Konzepten: Ich kann die Standards direkt als Roadmap für meine Vorlesung benutzen und dabei auf viele praktische Beispiele zurückgreifen, da viele Werkzeuge und existierende Dienste den Standard unterstützen. Meine Studenten mache ich damit wettbewerbsfühiger im Arbeitsmarkt.
- Implementierer profitieren von der klaren Definition: Ich kann den Standard direkt in eine Implementierung umsetzen, er gibt mir kalre Vorgaben. Das Ergebnis ist interoperabel und kann sogar mit den automatisierten OGC Compliance Tests auf Korrektheit im Sinne des Standards überprüft werden. Als KI-Experte kann ich nun endlich Auswertungen auf dem riesigen weltweiten Datenpool entwickeln.
Wie werden die Ergebnisse nach Projektabschluss verwertet?
Die DIN-SPEC wird als deutscher Input bei ISO TC211 WG6 eingereicht, um - möglichst direkt - als 19123-2:2020 übernommen zu werden.
Skizzieren Sie bitte die europäische/internationale Bedeutung
Coverages bilden die allgemein akzeptierte Grundlage für massive raum-zeitliche Daten über die Erde, sowohl als Beobachtungen (wie Satellitenbilder) als auch als generierte Daten (wie Wetterorhersagen). Das rasdaman-Team ist Editor des Coverage-Daten- und Dienstemodells, stelt die Referenzimplementierung und leitet die einschlägigen Arbeitsgruppen in OGC. Damit definiert Europa die Standards für "Big Earth Data". Mit der geplanten DIN-SPEC wird diese Führung fortgesetzt und ausgebaut.
Bestehen Einreichungsmöglichkeiten bei Europäischen und internationalen Normungsorganisationen (CEN/CENELEC/ISO/IEC)?
ja, siehe oben: ISO ist vorgesehen. Weitere Gremien (etwa CEN) wären zu diskutieren.
Skizzieren Sie bitte die Markt- und gesellschaftliche Relevanz
- Markt: ISO 19123-2 (identisch zu OGC CIS 1.0) in seiner jetzigen Form bildet die Grundlage für ein Who's Who der Geoinformations-Technologie (sowohl open-source als auch proprietär), wie diese Übersicht von OGC zeigt. Die jetzt einzubringenden Konzepte von OGC CIS 1.1 erlauben einfachere Handhabung, leichtere Implementierbarkeit bei gleichzeitig stark erweiterter Mächtigkeit. Es ist daher relativ sicher, dass die aktualisierte ISO 19123-2 ebenfalls breite Akzeptanz bei Implementierern finden wird. Damit bleibt OGC CIS / ISO 19123-2 der bei weitem dominierende Geodaten-Standard. Der Markt für Geodaten beträgt mehrere Milliarden US$; Global Industry Analystscharakterisiert den Bedarf in der Studie MCP-7064, 2018 wie folgt:
- “unprecedented demand for various types of analytics.”
- “Demand is on rise for better workflows & automated imagery analysis.”
- “With new applications evolving for various types of services, demand for big data analytics & management that offer new value proposition.”
- Gesellschaft: Demokratisierung des Datenzugangs: Heute erfordern Datenzugang und auswertung umfangreiche Kenntnisse in Fernerkundung und IT. Das ist für Experten zeitaufwändig und komplex, für Laien ist der Zugang unmöglich (wobei "Laien" durchaus Experten auf anderen Gebieten sind, z.B. in Versicherungen). Mit Werkzeugen auf Basis des antizipierten Standards können Experten und Nicht-Experten gleichermaßen effizient und aus ihrer gewohnten Umgebung heraus auf "Big Earth Data" zugreifen.
Kompetenzen und Ressourcen
Der Projektleiter und Geschäftsführer der rasdaman GmbH, Peter Baumann, hat jahrzehntelange Erfahrung in diversen Standardisierungsgremien und ist Autor von mehr als einem Dutzend Standards, darunter der OGC WCS-Suite sowie der ISO SQL-Erweiterung um Datacubes. Derzeit ist er u.a. in folgenden Gremien aktiv tätig:
- ISO:
- initiator and co-editor of ISO IS 9075-15:2018 Multi-Dimensional Arrays (SQL/MDA) (Technical Report); German delegate (via DIN NIA) to ISO/IEC JTC1 SC32 WG3 SQL and ISO/IEC JTC1 WG9 Big Data
- project leader, ISO 19123-2 Coverage Implementation Schema (in capacity as liaison representative for OGC in TC211 / WG6 Geographic information/Geomatics - Imagery)
- Open Geospatial Consortium:
- editor, OGC Coverage data & service model standards suite
- founder, Big Data Domain Working Group (BigData.DWG)
- chair, Web Coverage Service (WCS) Standards Working Group (WCS.SWG)
- chair, Coverages Domain Working Group (Coverages.DWG)
- co-founder, Temporal Domain Working Group (Temporal.DWG)
- INSPIRE: German delegate, WCS drafting team member
Für seine Beiträge zur Standardisierung von Daten und Diensten für raum-zeitliche Datenwürfeln wurde ihm von OGC der Gardels Award zugesprochen: "We wish to express our deep appreciation for the extraordinary contribution you have made to the OGC community and to people around the world who are the ultimate beneficiaries of improvements in the development, management and use of geoscientific data. Devoting your time and bringing your dedication, expertise, critical thinking and leadership to OGC working groups has resulted in significant and enduring advances in technical standards. The value you've created has been leveraged, and the OGC's work overall has been leveraged, through your active participation in other standards bodies, expert groups, councils and commissions".
Zusätzlich steht neben Peter Baumann erfahrene Teams im Unternehmen sowie in seiner Universitäts-Forschungsgruppe bereit.
Da der Antragsteller Editor des ISO 19123-2 Projekts ist und langjährige Erfahrung in der internationalen Standardisierung hat, ist eine Übernahme der DIN-SPEC durch ISO – ggf. mit leichten Modifikationen – praktisch sicher. Unterstützt wird diese Sicht von der Die im letzten Jahr von Peter Baumann erstellte DIN-SPEC 18114, welche inzwischen Diskussionsgrundlage für ISO 19123-1 ist, das abstrakte Coverage-Modell; OGC hat angekündigt, dies ebenfalls zu übernehmen.
Standardisierungsscope
Der geplante DIN-SPEC / ISO 19123-2 Standard definiert Strukturen und Dateiformate für multi-dimensionale, raum-zeitliche Rasterdaten, Punktwolken und allgemeine Netze von Geodaten.Damit ist er die unabgdingbare Basis für Dienste-Standards wie Web Coverage Service (WCS) und andere Coverage-Dienste, hier ein Beispiel basierend auf dem Vorgänger-Standard. Zielgruppen sind (vgl. Abschnitt "Nutzen" weiter oben): Entwickler von Server - und CLient-Software; Datenanbieter, welche Dienste auf Basis des Standards betreiben; Nutzer dieser Dienste; Studenten und Ausbilder.



