Projekttitel: Big Earth Data für KI
| deutscher Projekttitel | Big Earth Data für KI |
| englischer Projekttitel | Big Earth Data for AI |
Ideengeber*in:
| Name | Peter Baumann |
| Organisation | rasdaman GmbH |
| Adresse | Hans-Hermann-Sieling-Str. 17 |
| E-Mail (optional) | baumann@rasdaman.com |
| Telefon (optional) | 01735837882 |
| Website (falls vorhanden) | www.rasdaman.com |
Potenzielle Projektpartner*innen
Zur Einreichung der DIN SPEC sollen noch zwei weitere Partner gewonnen werden, vorzugsweise aus dem Kreis der internationalen Coverage-Standardisierungs-Experten. Die konkrete Auswahl ergibt sich jedoch erst im Lauf des Projekts. Inoffiziell wird ein internationales Netzwerk konsultiert werden, bestehend aus ISO TC211, OGC und weiteren Experten. Daraus können später Projektpartner gewonnen werden, sowohl national als auch international. Kandidaten sind:
Graham Wilkes, ISO TC211 WG6 Convener, Canada
Douglas O’Brien, ISO TC211 WG6 Convener emeritus, Canada
Emmanuel Devys, IGN France und DGIWG, France
Vlad Merticariu, Jacobs University, Bremen, Germany
Ausgangslage
Nutzen
Ziel des Vorhabens ist die Erstellung einer DIN-SPEC für die interoperable Repräsentation von „Big Earth Data“, insbesondere raum-zeitliche „Datenwürfel“ (Datacubes), als Grundlage für Web-basierte Geo-Dienste und besser skalierende KI-Methoden. Dies betrifft u.a. optische und radar-basierte Satellitendaten und Satellitenbild-Zeitreihen, Wetter- und Klimadaten, Höhenmodelle, und viele weitere.
Hierzu existiert bereits ISO 19123-2, die jedoch nicht mehr dem Stand der Technik entspricht. ISO TC211 WG6 plant daher eine Revision von 19123-2 und hat Peter Baumann, CEO der antragstellenden rasdaman GmbH, als Projektleiter bestellt.
Der vorliegende Antrag schlägt vor, daß rasdaman GmbH die entsprechende DIN-SPEC erstellt und diese dann vom DIN-Spiegelgremium als ISO IWD (Initial Working Draft) vorgeschlagen wird. Aufgrund der langjährigen internationalen Standardisierungs-Erfahrung, der einschlägigen Vorarbeiten sowie der engen Zusammenarbeit mit den ISO und OGC Experten kann davon ausgegangen werden, dass diese DIN-SPEC i.w. unverändert als ISO-Standard übernommen werden wird.
Abb. 1: Kaleidoskop von Coverage-basierten Geodiensten
Worin liegt das Optimierungspotential?
Geodaten, insbesondere Geo-Rasterdaten, sind hochkomplex. Dies liegt einerseits an der großen Vielfalt (etwa 1D Sensordaten, 2D Satellitendaten, 3D Satellitenbild-Zeitreihen, 4D Klimadaten, etc.), andererseits aber auch an der Vielzahl unterschiedlicher "gewachsener" Lösungen, welche sehr verschieden und definitiv nicht interoperabel sind. Sehr oft wird für einen Datendienst gleichzeitig der zu benutzende Client mitgeliefert, und der Client von Dienst A kann nicht an Dienst B ankoppeln. Dies bringt eine hohe Hürde in der Nutzung mit sich, und selbst für Experten gestaltet sich die Auswertung langwierig und aufwändig. Dies bedeutet, daß viele Auswertungen derzeit nicht stattfinden, daß Auswertungen nur auf begrenzten Datenvolumina stattfinden können - beispielsweise auf einem einzigen Satellitenbild von 100x100 km statt auf einem ganzen Kontinent. Insbesondere Zeitreihenanalyse - die heutige Killer-Applikation insbesondere für Machine Learning - ist damit kaum möglich.
Im Bereich Normierung von Geodaten und –diensten bezeichnet "Coverage" eine geographische Datenstruktur für raum-zeitlich ausgedehnte Phänomene, i.w. reguläre und irreguläre Gitter, Punktwolken und allgemeine Netze (math.: Polytope) [1]. Damit sind Coverages wesentlich für die "Big Earth Data" verantwortlich, u.a. Satellitenbilder, Klimasimulationen, Laserscan-Daten. Coverages erschließen sowohl menschlichen als auch maschinellen Nutzern den einfachen Zugang zu "Big Earth Data" über das korrespondierende Dienste-Modell, Web Coverage Service (WCS). Das vorliegende Projekt erstellt, auf Wunsch von ISO, einen wesentlichen Baustein: eine klare, vereinfachte, und gleichzeitig mächtigere Daten-Modellierung für raum-zeitliche Datenwürfel, auf Grundlage des bestehenden OGC CIS 1.1 Standards. Ziel ist also, zwei unterschiedliche Coverage-Versionen in einem neuen Dokument zu vereinigen; die Konzepte beider Versionen an sich sind etabliert und stabil.
Abb. 2: Beispiel regulärer und irregulärer Gitter, wie sie im neuen Standard vereinheitlicht modelliert werden können
Referenzen:
[1] http://en.wikipedia.org/wiki/Coverage_data
[2] http://en.wikipedia.org/wiki/Web_Coverage_Service
[3] http://myogc.org/go/coveragesDWG
[4] http://www.opengeospatial.org/standards/wcs
Wer profitiert von der Innovation und dem Standard?
- Geodaten-Anbieter profitieren von den klaren Definitionen: meine Daten sind für Nutzer einfacher zugreifbar und verarbeitbar, was Kunden gerne zu mir kommen läßt. Ich kann, aufgrund der Interoperabilität, zu meinen Datenzugängen eine Vielzahl von standardkonformen Clients anbieten. Die Administration ist übersichtlich, und ich kann ausgebildete Fachkräfte finden, welche die zugrundeliegenden Standards bereits kennen.
- Geodaten-Nutzer profitieren von der Einheitlichkeit der Diensteangebote: gehe ich zum nächsten Anbieter, werden die Daten mit denselben Mechanismen angeboten. Ich kann aus diversen Clients auswählen, von einfacher Navigation über Virtuelle Globen bis hin zu Analytik und KI mit python, R usw. Endlich kann ich mit Machine Learning an den riesigen weltweiten Datenpopol herangehen und bessers Verständnis aus den Daten ziehen.
- Studenten profitieren von den klaren Konzepten und der universellen Anwendbarkeit des Gelernten: Der Umgang mit Datenwürfeln als "Big Data" ist einfach, logisch und leicht erlernbar. Der Markt benutzt genau die Prinzipien, die ich gelernt habe, ich kann mit einer Vielzahl Werkzeug direkt loslegen.
- Ausbilder profitieren von den aufbereiteten Konzepten: Ich kann die Standards direkt als Roadmap für meine Vorlesung benutzen und dabei auf viele praktische Beispiele zurückgreifen, da viele Werkzeuge und existierende Dienste den Standard unterstützen. Meine Studenten mache ich damit wettbewerbsfühiger im Arbeitsmarkt.
- Implementierer profitieren von der klaren Definition: Ich kann den Standard direkt in eine Implementierung umsetzen, er gibt mir kalre Vorgaben. Das Ergebnis ist interoperabel und kann sogar mit den automatisierten OGC Compliance Tests auf Korrektheit im Sinne des Standards überprüft werden. Als KI-Experte kann ich nun endlich Auswertungen auf dem riesigen weltweiten Datenpool entwickeln.
Wie werden die Ergebnisse nach Projektabschluss verwertet?
Die DIN-SPEC wird als deutscher Input bei ISO TC211 WG6 eingereicht, um - möglichst direkt - als 19123-2:2020 übernommen zu werden.
Skizzieren Sie bitte die europäische/internationale Bedeutung
Coverages bilden die allgemein akzeptierte Grundlage für massive raum-zeitliche Daten über die Erde, sowohl als Beobachtungen (wie Satellitenbilder) als auch als generierte Daten (wie Wetterorhersagen). Das rasdaman-Team ist Editor des Coverage-Daten- und Dienstemodells, stelt die Referenzimplementierung und leitet die einschlägigen Arbeitsgruppen in OGC. Damit definiert Europa die Standards für "Big Earth Data". Mit der geplanten DIN-SPEC wird diese Führung fortgesetzt und ausgebaut.
Bestehen Einreichungsmöglichkeiten bei Europäischen und internationalen Normungsorganisationen (CEN/CENELEC/ISO/IEC)?
ja, siehe oben: ISO ist vorgesehen. Weitere Gremien (etwa CEN) wären zu diskutieren.
Skizzieren Sie bitte die Markt- und gesellschaftliche Relevanz
- Markt: ISO 19123-2 (identisch zu OGC CIS 1.0) in seiner jetzigen Form bildet die Grundlage für ein Who's Who der Geoinformations-Technologie (sowohl open-source als auch proprietär), wie diese Übersicht von OGC zeigt. Die jetzt einzubringenden Konzepte von OGC CIS 1.1 erlauben einfachere Handhabung, leichtere Implementierbarkeit bei gleichzeitig stark erweiterter Mächtigkeit. Es ist daher relativ sicher, dass die aktualisierte ISO 19123-2 ebenfalls breite Akzeptanz bei Implementierern finden wird. Damit bleibt OGC CIS / ISO 19123-2 der bei weitem dominierende Geodaten-Standard. Der Markt für Geodaten beträgt mehrere Milliarden US$; Global Industry Analystscharakterisiert den Bedarf in der Studie MCP-7064, 2018 wie folgt:
- “unprecedented demand for various types of analytics.”
- “Demand is on rise for better workflows & automated imagery analysis.”
- “With new applications evolving for various types of services, demand for big data analytics & management that offer new value proposition.”
- Gesellschaft: Demokratisierung des Datenzugangs: Heute erfordern Datenzugang und auswertung umfangreiche Kenntnisse in Fernerkundung und IT. Das ist für Experten zeitaufwändig und komplex, für Laien ist der Zugang unmöglich (wobei "Laien" durchaus Experten auf anderen Gebieten sind, z.B. in Versicherungen). Mit Werkzeugen auf Basis des antizipierten Standards können Experten und Nicht-Experten gleichermaßen effizient und aus ihrer gewohnten Umgebung heraus auf "Big Earth Data" zugreifen.
Kompetenzen und Ressourcen
Der Projektleiter und Geschäftsführer der rasdaman GmbH, Peter Baumann, hat jahrzehntelange Erfahrung in diversen Standardisierungsgremien und ist Autor von mehr als einem Dutzend Standards, darunter der OGC WCS-Suite sowie der ISO SQL-Erweiterung um Datacubes. Derzeit ist er u.a. in folgenden Gremien aktiv tätig:
- ISO:
- initiator and co-editor of ISO IS 9075-15:2018 Multi-Dimensional Arrays (SQL/MDA) (Technical Report); German delegate (via DIN NIA) to ISO/IEC JTC1 SC32 WG3 SQL and ISO/IEC JTC1 WG9 Big Data
- project leader, ISO 19123-2 Coverage Implementation Schema (in capacity as liaison representative for OGC in TC211 / WG6 Geographic information/Geomatics - Imagery)
- Open Geospatial Consortium:
- founder, Big Data Domain Working Group (BigData.DWG)
- chair, Web Coverage Service (WCS) Standards Working Group (WCS.SWG)
- chair, Coverages Domain Working Group (Coverages.DWG)
- co-founder, Temporal Domain Working Group (Temporal.DWG)
- INSPIRE: German delegate, WCS drafting team member
Für seine Beiträge zur Standardisierung von Daten und Diensten für raum-zeitliche Datenwürfeln wurde ihm von OGC der Gardels Award zugesprochen: "We wish to express our deep appreciation for the extraordinary contribution you have made to the OGC community and to people around the world who are the ultimate beneficiaries of improvements in the development, management and use of geoscientific data. Devoting your time and bringing your dedication, expertise, critical thinking and leadership to OGC working groups has resulted in significant and enduring advances in technical standards. The value you've created has been leveraged, and the OGC's work overall has been leveraged, through your active participation in other standards bodies, expert groups, councils and commissions".
Zusätzlich steht neben Peter Baumann erfahrene Team im Unternehmen sowie in seiner Universitäts-Forschungsgruppe bereit.
Da der Antragsteller Editor des ISO 19123-2 Projekts ist und langjährige Erfahrung in der internationalen Standardisierung hat, ist eine Übernahme der DIN-SPEC durch ISO – ggf. mit leichten Modifikationen – praktisch sicher. Unterstützt wird diese Sicht von der Die im letzten Jahr von Peter Baumann erstellte DIN-SPEC 18114, welche inzwischen Diskussionsgrundlage für ISO 19123-1 ist, das abstrakte Coverage-Modell; OGC hat angekündigt, dies ebenfalls zu übernehmen.
Standardisierungsscope
Der geplante DIN-SPEC / ISO 19123-2 Standard definiert Strukturen und Dateiformate für multi-dimensionale, raum-zeitliche Rasterdaten, Punktwolken und allgemeine Netze von Geodaten.Damit ist er die unabgdingbare Basis für Dienste-Standards wie Web Coverage Service (WCS) und andere Coverage-Dienste, hier ein Beispiel basierend auf dem Vorgänger-Standard. Zielgruppen sind (vgl. Abschnitt "Nutzen" weiter oben): Entwickler von Server - und CLient-Software; Datenanbieter, welche Dienste auf Basis des Standards betreiben; Nutzer dieser Dienste; Studenten und Ausbilder.

