Projekttitel: Daten-Annotationen zur Unterstützung KI-gestützter Datenverarbeitung



deutscher ProjekttitelSemantische Daten-Annotationen zur Unterstützung KI-gestützter Datenverarbeitung
englischer ProjekttitelSemantic Data Annotations to Support AI-enabled Data Processing




Ideengeber*in:


NameDr. Georg Wittenburg
OrganisationInspirient GmbH
AdresseAltensteinstraße 40
E-Mail (optional)georg.wittenburg@inspirient.com
Telefon (optional)

030 - 2007 4820

Website (falls vorhanden)https://www.inspirient.com/
Wie sind Sie auf DIN-Connect aufmerksam geworden?



Potenzielle Projektpartner*innen



Ausgangslage


Ein gutes Verständnis für einen Datensatz ist Voraussetzung für dessen korrekte Auswertung, z.B. im Rahmen einer betrieblichen Entscheidungsfindung. Es gibt verschiedene, teilweise standardisierte Verfahren, um die Eigenschaften eines Datensatzes zu dokumentieren und somit für jede neue Verwendung das erforderliche Verständnis der Daten zu ermöglichen:

  • Meta-Daten dokumentieren Informationen zum Kontext eines Datensatz, z.B. Ersteller oder Erstellungsdatum
  • Syntaktische Annotationen dokumentieren Anforderungen an Datentypen und Formatierungen
  • Inhaltliche Annotationen dokumentieren die korrekte Interpretation einzelner Zeilen zum Zwecke des Maschinellen Lernens

Eine wesentliche Lücke zur korrekten Datenauswertung, insbesondere wenn diese (teil-)automatisiert geschehen soll, ist jedoch das semantische und strukturelle Verständnis für einen Datensatz. Hierzu zählen Fragen wie beispielsweise...

  • Handelt es sich bei einem Feld um einen Datenbankschlüssel (primary / secondary key)?
  • Steht ein leeres Feld in einer Spalte für die Abwesenheit von Daten ('null') oder keine zählbare Aktivität (0)?
  • Ist es mathematisch / inhaltlich korrekt, die Werte einer Spalte zu summieren (Beispiel: Umsatz ja, Preise nein)?

Diese Fragen bleiben aktuell der Interpretation durch den Nutzer überlassen und verursachen somit eine Unschärfe in der Datenauswertung, die bei der manuellen Auswertung zu Fehlern führen kann und die maschinelle Auswertung z.B. mittels Künstlicher Intelligenz stark erschwert.


Welche Situation liegt aktuell wie vor?

Welche Bedarfe liegen bei welchen Marktteilnehmern*innen vor?

Welche Lösungen existieren derzeit für welche Marktteilnehmer*innen? 

Weshalb sind diese Lösungen nicht hinreichend genug? 

Was ist der Stand der Technik?

Welche themenverwandten Standards, technische Regeln, Normenausschüsse, Gremien, Foren und Konsortien sind Ihnen bekannt bzw. existieren bereits?

Beschreibung der Vorarbeiten: Handelt es sich um eine Anschubförderung? Inwiefern ist das Produkt bereits entwickelt?

Inwiefern passt das Thema zu dem von Ihnen ausgewählten DIN-Connect Themenschwerpunkt?

Nutzen


Worin liegt das Optimierungspotential?

Durch standardisierte semantische und strukturelle Annotationen eines Datensatzes lassen sich Fehler in der händischen Datenauswertung vermeiden und die maschinelle Datenauswertung wird ermöglicht.

Wer profitiert von der Innovation und dem Standard?

Diese Standardisierung richtet sich an Daten-intensive Unternehmen sowie Unternehmen, die Datenverarbeitungsdienste anbieten. Durch eine standardisierte Beschreibung der semantischen und strukturellen Eigenschaften eines Datensatzes verbessert sich sowohl die aktuelle Auswertbarkeit eines Datensatzes als auch die spätere Nutzbarkeit in noch unvorhergesehenen Anwendungsfeldern.

Wie werden die Ergebnisse nach Projektabschluss verwertet?

Die Ergebnisse des Projektes umfassen standardisierungsrelevante Dokumentation zu semantischer Daten-Annotation, inkl. ...

  • Notation der Annotation innerhalb eines Datensatz
  • Notation / Dateiformat zur Annotation außerhalb eines Datensatzes
  • Spezifikation in der oben genannten Notation zu semantischen und strukturellen Eigenschaften eines Datensatzes, z.B. bzgl. ...
    • Semantische Eigenschaften von Spalten (z.B. ID / Primär-/Sekundärschlüssel)
    • Statistische Eigenschaften (z.B. Summierbarkeit, Kategorisierbarkeit)
    • Analytische Eigenschaften (z.B. Priorität, Notwendigkeit der Anonymisierung)

Skizzieren Sie bitte die europäische/internationale Bedeutung

Daten-zentrische Wertschöpfung und Künstliche Intelligenz sind klar benannte Prioritäten der europäischen Digitalisierungsstrategie bis 2024 (https://ec.europa.eu/info/strategy/priorities-2019-2024/europe-fit-digital-age/european-data-strategy_en), die explizit auf einen Marktplatz für Daten abzielt. Daten werden somit auf europäischer und internationaler Ebene mehr als jetzt schon zu einem Wirtschaftsgut. Durch die hier vorgeschlagene Anreicherung von Datensätzen wird dieses Wirtschaftsgut aufgewertet und für viele Marktteilnehmer handhabbarer gemacht.

Bestehen Einreichungsmöglichkeiten bei Europäischen und internationalen Normungsorganisationen (CEN/CENELEC/ISO/IEC)?

Ja.

Skizzieren Sie bitte die Markt- und gesellschaftliche Relevanz

Die weitere Nutzbarmachung von Daten und Datenströmen ist in ihrer wirtschaftlicher und gesellschaftlicher Relevanz kaum zu überschätzen. Eine grundlegende Fragen, wie beispielsweise die sichere Zurverfügungstellung von Daten unter Wahrung der Rechte der ursprünglichen Dateninhaber wird bereits breit diskutiert. Auf operativer Ebene und insbesondere zur tatsächlichen Wertschöpfung kommt es aber auf die tatsächlich Nutzbarkeit der Daten und Datenströme an. Hierzu leistet die hier vorgeschlagene Standardisierung einen entscheidenden Beitrag.

Kompetenzen und Ressourcen


Die Inspirient GmbH beschäftigt mit Dr. Wittenburg und Dr. Aimetti ausgewiesene Experten im Thema der automatisierten Datenverarbeitung, die jeweils langjährige Erfahrung in informatischen F&E-Projekten sowohl auf akademischer Seite als auch in der Wirtschaft einbringen können. Mit Dr. Linn vom August-Wilhelm Scheer Institut und Dr. Wirtz vom Fraunhofer IAIS wird diese Erfahrung insbesondere im Bezug auf aktuelle Forschung weiter flankiert. Als Gegenpart aus der wirtschaftlichen Praxis stellt Dr. Homburg seine Expertise als langjähriger CFO eines führenden Digitalisierungsunternehmens zur Verfügung.


Standardisierungsscope


Der Anwendungsbereich muss kurz und prägnant abgefasst werden. Er legt das Thema des Dokuments und die behandelten Sachverhalte fest, wobei die Grenzen der Anwendbarkeit des Dokumentes oder seiner einzelnen Teile aufgezeigt werden.

Bitte geben Sie an dieser Stelle an, welchen Bezug die von Ihnen eingereichte Idee zur Standardisierung besitzt. Bitte formulieren Sie den Anwendungsbereich Ihres geplanten Standards. 


Der geplante Standard definiert Anforderungen an Notationssyntax in Inhalte einer semantischen Annotation von strukturierten Datensätzen, mit den Datenverarbeitungsprozesse innerhalb und zwischen Akteuren fehlerfreier und automatischer gestaltet werden können.

Sind folgende Aspekte potentiell betroffen?



Aspekte

Ja

Nein

Arbeitsschutz



Gesundheitsschutz



Umweltschutz



Brandschutz



Schutzrechte (z.B. Patente)



Managementsysteme



Industrie 4.0




Error rendering macro 'excerpt-include'

User 'null' does not have permission to view the page.