Normungs- und Standardisierungsbedarfe der Normungsroadmap KI (A2)

01-01 Sektorübergreifende Normung von Begriffen

Gerade durch die querschnittliche Bedeutung von „KI“ als Technologie führen die benannten Bedeutungsunterschiede in interdisziplinären Diskussionen oft zu erheblichen Missverständnissen. Das erzeugt Reibungsverluste auch ohne inhaltlichen Dissens und entsprechend ohne inhaltliche Fortschritte. Da die Operationalisierung von KI und KI-Diskussionen vermehrt sektor- und domänenübergreifende Maßnahmen erfordert, wird erwartet, dass gemeinsame Begrifflichkeiten für diese ein notwendiges Fundament darstellen.

Wie im Glossar deutlich wird, gibt es bei verbreiteten Begriffen (beispielsweise „bias“, „safety“) mitunter erhebliche Abweichungen in Standards und Konventionen unterschiedlicher Domänen oder Sektoren. Es wird vorgeschlagen, sektorübergreifend vereinheitlichte Definitionen zu schaffen, um eine übergreifende Terminologie gerade in KI-Debatten sicherzustellen.

01-02 Verwendbarkeit der Normenreihe ISO/IEC 5259 [39] für sektorspezifisches Datenqualitätsmanagement

Die Verwendung der ISO/IEC-5259-Reihe [39] als gemeinsamer Ausgangspunkt für vertikale Standardisierungsaktivitäten im Bereich Datenqualität erlaubt es, auf ein gemeinsames Gerüst zurückzugreifen und Terminologie, Konzepte und Prozesse für Datenqualitätsmanagement sektorübergreifend zu beschreiben.

Durch die Initiierung der Normenreihe der ISO/IEC-5259-Reihe [39] sind die Themen Datenqualität und Datenmanagement in der internationalen Standardisierung zumindest allgemein adressiert. Dennoch ist zu erwarten, dass für spezifische Sektoren und Anwendungen verschärfte und ggf. andere als die oben genannten Qualitätskriterien relevant werden. Auch Qualitätsmanagementprozesse müssen sektorspezifisch implementiert und ggf. angereichert werden. Somit wird empfohlen, in der vertikalen Standardisierung zum Datenqualitätsmanagement zu prüfen, inwieweit die ISO/IEC-5259-Reihe [39] als allgemeine Referenz herangezogen werden kann und inwieweit sektorspezifische Adaptionen notwendig werden.

01-04 Prüfstandard für KI-Systeme in Anlehnung an die CC

Da die CC ein weltweit akzeptierter Ansatz zur Sicherheitsevaluation von IT-Systemen darstellt, der von Prüflaboren und Zertifizierungsstellen angewendet wird, wird so Mehraufwand bei der Produktzertifizierung von KI-Systemen vermieden bzw. minimiert, da auf bewährte Verfahrensweisen zurückgegriffen werden kann.

Zur Prüfung und Evaluation von KI-Systemen soll ein horizontaler Prüfstandard entwickelt werden, der sich in Terminologie, Methodik und Strukturvorgaben an die Dokumente zu den Common Criteria anlehnt.

01-05 Anforderungen an zertifizierende Stellen

Erforderliche Kompetenzen von Auditoren bzw. der Zeitaufwand für ein Audit gemäß ISO/IEC 42001 [27] unterscheiden sich ggf. von Audit-Anforderungen in anderen Bereichen.

Formulierung von Anforderungen an die Zertifizierung gemäß ISO/IEC 42001 [27], die durch zertifizierende Stellen erfüllt werden müssen. Ein Projektvorschlag von deutscher Seite zu diesem Thema ist in Vorbereitung; die Projektdurchführung muss jedoch von deutscher Seite maßgeblich unterstützt werden.

01-07 Schnittstellen des Entwicklungsprozesses von KI gestalten

Standardisierte Schnittstellen und ein modulares Modell typischer KI-Bausteine kann die austauschbare Entwicklung und Einzelbewertung nach standardisierten Kriterien ermöglichen und damit zur übergreifenden Nutzbarkeit, zur Übertragbarkeit von Zulassungen und zur Transparenz beitragen. Entsprechende Methoden zur Einsichtnahme in Modelle und Datensätze fordert auch der Entwurf zum AI Act [4]. Darauf aufbauend können standardisierte Vorgehensmodelle geschaffen werden (vgl. beispielsweise [93]), die die Bereitstellung entsprechender Schnittstellen als reguläres Artefakt der Entwicklung integrieren und Zusatzaufwände minimieren. Die dadurch entstehende Vergleichbarkeit des Schnittstellenmanagements von unterschiedlichen Institutionen schafft Orientierung und zahlt so auf den Wert Selbstbestimmung i. S. v. selbstbestimmter Nutzung ein.

Standardisierte Schnittstellen in KI-Systemen sollen bereits in der Entwicklungsphase externen Prüfern Einblick etwa in Trainingsdatensätze und Modelle geben und KI-Subsysteme, wo möglich, auf gängige einheitliche Funktionsbeschreibungen zusammenführen, um Entwicklung, Prüfung und Einsatz zu vereinfachen, insbesondere im Hinblick auf Ziele der Ethik und Vertrauenswürdigkeit (beispielsweise hinsichtlich Nachvollziehbarkeit, Authentizität der Daten, Transparenz). Es sollten standardisierte Rollenbeschreibungen von KI-Komponenten und von Akteur*innen definiert werden. Ferner soll eine standardisierte Beschreibung des Zusammenspiels der einzelnen Komponenten untereinander sowie im Gesamtkontext (inklusive Nicht-KI-Systemteile und Systemumgebung) geschaffen werden. Es ist zu definieren, welcher Abstraktionsgrad dabei praktisch ratsam ist – beispielsweise, um mit Rücksicht auf Datenschutz, Datensparsamkeit und Datenumfang nicht alle Bestandteile eines Datensatzes offenlegen zu müssen, sondern lediglich abstrahierte Merkmale.

01-08 Gestaltung der Inhalte einer Quality Backward Chain

Um Systeme künstlicher Intelligenz auch in ihrer ethischen Dimension während ihres Einsatzes evaluieren und ggf. Entscheidungsgrundlagen modellieren zu können, ist der Einsatz einer Quality Backward Chain zu empfehlen. Diese gewinnt im Rahmen des Einsatzes Felddaten, welche ein Urteil über ethische Entscheidungen des Systems ermöglichen. Grundlegende Korrekturen des Systems sind hierbei nicht vorgesehen, vielmehr soll verhindert werden, dass auf Schäden durch den Einsatz nicht (angemessen) reagiert werden kann. Die Quality Backward Chain liefert Daten für die nachträgliche Beurteilung möglicher Fehlentscheide und hilft dabei sowohl dem Anbieter als auch dem Anwendenden.

Verpflichtende Inhalte im Rahmen der Felddatengewinnung im Sinne einer Quality Backward Chain, die neben technischen auch ethische Aspekte systematisch abdecken muss, bedürfen einer Normung sowie einheitlicher Datenformate, um künftige Meldepflichten zu sichern. Damit soll gewährleistet werden, dass die Option, Meldungen zu machen, möglichst niederschwellig und für alle Benutzergruppen möglichst gut erreichbar ist. Damit soll hinsichtlich der Wertebene eine demokratische Nutzung sichergestellt sein. Ebenso ist dies hinsichtlich Interoperabilität erforderlich, um eine freie Nutzung von Produkten, Dienstleistungen und Systemen abseits von Monopolen zu ermöglichen und User*innen auch in dieser Hinsicht in ihrer souveränen Entscheidung zu unterstützen.

01-09 Möglichkeiten zur Reevaluierung vorsehen

Die ethische Reevaluierung von KI-Systemen findet anhand ihrer Kernwerte statt. Diese Kernwerte gilt es vorher im Entwicklungsprozess durch das Unternehmen im Rahmen eines Stakeholderprozesses zu identifizieren. Anhand der erfolgten Abwägung von Werten stuft das Unternehmen intern Ergebnisse bzw. Entscheidungen des KI-Systems in seiner ethischen Dimension im Betrieb ein, aber auch schon im Rahmen des Entwicklungsprozesses. Felddaten aus einer Quality Backward Chain können diese Bewertung unterstützen. In die Prüfung sind die relevanten Stakeholder einzubinden. Sie kann durch ein Expert*innengremium, z. B. ein Expert Review Board, oder anderes geschultes Personal vollzogen werden. Die Prüfung schließt mit ein, dass auch die Unternehmensprozesse in Hinblick auf die Gewährleistung ethischer Prinzipien betrachtet und ggf. korrigiert werden. Sollte ein Verstoß gegen o. g. Kernwerte entdeckt werden, so ist eine größere Prüfung der Prozesse und Datengrundlage nötig. Ebenso wäre eine Meldepflicht analog zu Datenschutzverstößen denkbar. Die Reevaluierung findet bedarfsgebunden oder in festen Abständen statt, beispielsweise alle drei Jahre. Kernelemente dieses Prozesses sind bereits in der ISO/IEC 38507:2022 [26] adressiert, wobei zum Großteil die Kernziele des Unternehmens in den Vordergrund gestellt werden und ethische Aspekte eher als Nebenanforderung auftreten. Dabei ist zudem nicht herausgearbeitet, welche konkreten Inhalte in Bezug auf die ethische Bewertung berücksichtigt und in welchem Umfang diese betrachtet werden sollen.

Dokumentationspflichten und Zeitabstände für verpflichtende Reevaluierungen sind zu normen.

01-10 Normung eines Konzepts für Privacy Ethical Design

Privacy Ethical Design unterlegt alle Systeme mit dem Grundsatz der Privatsphäre des Einzelnen. Dabei geht es über das Konzept der Privatsphäre an sich hinaus und weist ihr eine klare ethische Dimension zu, bei der nicht nur direkte Einflüsse, sondern auch indirekte Einflüsse auf die Bedarfe des Anwendenden berücksichtigt werden. Damit wird ein Grundvertrauen in neue Technologien gefördert und dadurch die Marktakzeptanz erhöht. Auch Interoperabilität zwischen verschiedenen Anbietern, wie beispielsweise SSO, kann durch Privacy Ethical Design mehr Anwender*innen ansprechen. Dies kann unter Berücksichtigung des aktuell im ISO/IEC JTC 1/SC 42 initiierten Projekts zu einen MSS für KI (siehe Kapitel 4.1.3, Bedarf 1 „Unterstützung der internationalen Standardisierungsarbeiten zu einem MSS für KI“) erfolgen, indem die Erklärbarkeit von KI-Systemen in den Anforderungskatalog des entstehenden Dokuments aufgenommen wird, sowie durch eine Ausweitung des Risikobegriffs auf ethische Risiken, wie sie bereits im Projekt ISO/IEC 23894:2022 [25] Risk Management vorgenommen wurde.

Um effektives Privacy Ethical Design zu fördern, gilt es, ethische Risiken gezielt und systematisch zu beleuchten. Im Rahmen eines Risikomanagementprozesses sollen sie identifiziert und analysiert werden, um sie durch gezielte Maßnahmen zu mitigieren. Dies kann beispielsweise in Form und Umfang einer möglichen Dokumentationspflicht gestaltet werden – zur Förderung von Transparenz und Verhinderung reiner Scheinmaßnahmen. Ein solches Vorgehen zahlt u. a. auf den Wert der Nachvollziehbarkeit ein. Ein weiteres Beispiel wäre die Verbesserung der Benutzerschnittstelle im Hinblick auf Privacy-Einstellungen, um für die Beteiligten möglichst gute Möglichkeiten zu schaffen, Privacy effektiv und intuitiv umzusetzen.

01-11 Zweckbindung von Daten gestalten

Um ein für alle Parteien transparentes Agieren im Interesse vertrauenswürdiger KI-Entwicklung zu ermöglichen, gilt es, die Zweckbindung von Daten weiter auszugestalten. Nach Art. 5 Datenschutz-Grundverordnung (DSGVO) dürfen personenbezogene Daten nur für „festgelegte, eindeutige und legitime Zwecke erhoben werden“ sowie „nicht in einer mit diesen Zwecken nicht zu vereinbarenden Weise weiterverarbeitet werden“. Ausnahmen gelten hierbei nach Art. 89 DSGVO für „im öffentlichen Interesse liegende Archivzwecke, für wissenschaftliche oder historische Forschungszwecke oder für statistische Zwecke“. Hier kann Normung ansetzen und im Rahmen der gesetzlichen Leitplanken der DSGVO eine innovative Datennutzung fördern, durch die Unternehmen in der Lage sind, neue Produkte auf Basis ihrer Stammdaten zu entwickeln, ohne die Rechte der Verbraucher*innen zu verletzen. Eine gute Option bietet sich, zu diesem Punkt den Dialog zu einschlägigen Gesetzesvorschlägen der Europäischen Kommission (DSA, DGA) zu pflegen, um die Regulierungsabsichten in dieser Hinsicht stimmig fortzuführen. Hierbei soll über gemeinsamen Austausch bestenfalls auch die Expertise der Aufsichtsbehörden einbezogen werden. Gleichzeitig sollen die Verbraucher*innen jederzeit in der Lage sein, eine angemessene Übersicht zu erhalten, zu welchen Zwecken ihre Daten verwendet werden. Normung kann hierbei Unternehmen und Institutionen unterstützen, ein erforderliches Consent Management zu entwickeln und zu integrieren.

Für eine sichere und innovative Zweckbindung von Daten kann Normung einheitliche Dokumentationen und Einverständniserklärungen fördern, welche Anwender*innen und Anbieter*innen schnell und unkompliziert Einsicht in die möglichen Verwendungszwecke bieten.

01-13 Verbesserter und niederschwelligerer Überblick über das Zusammenspiel zwischen Kritikalitätsstufen und zugehörigen Anforderungen (speziell bei KI-Systemen mit geringem Risiko)

Um KI-Systeme bezüglich ihrer Kritikalität schnell einordnen zu können und die damit verbundenen Anforderungen gut erfassen zu können, wären für Herstellende klar strukturierte Vorgaben hilfreich. Das gilt insbesondere für die Frage, welche Anforderungen KI-Anwendungen mit niedrigem Risiko erfüllen sollten, um die gesetzlichen Vorgaben zu erfüllen, aber auch um ein hohes Maß an Vertrauenswürdigkeit zu erreichen. Der geplante AI Act gibt zwar für den Bereich der EU eine Einordnung in bestimmte Klassen, indem er z. B. verbotene Bereiche oder auch Hochrisikosysteme definiert, wobei die Einordnung primär gemäß dem Anwendungsgebiet und weniger nach dem für das jeweilige konkrete Produkt entstehende Risiko erfolgt. Gerade für den Bereich der weniger kritischen Systeme verbleiben jedoch wenig konkrete Anforderungen, sodass die Herstellenden in diesem Fall kein klares Bild bekommen, welche Anforderungen umzusetzen sind. Dieser Effekt wird dadurch verstärkt, dass es inzwischen vielfältige andere Gesetze auf EU-Ebene gibt, wie u. a. die Datenschutz-Grundverordnung, der Digital Service Act, der geplante Data Act oder auch die Grundrechtecharta der EU, die weitere wichtige Anforderungen liefern, die bei der Entwicklung von KI-basierten Systemen eine zentrale Rolle spielen. Auch auf Seite der Benutzer*innen wird es damit unübersichtlich, wie sie die Systeme einzuordnen haben, was ein vertrauenswürdiges System ausmacht und welche Anforderungen diese in welcher Weise erfüllen.

Eine bessere Transparenz und Übersichtlichkeit in Bezug auf die unterschiedlichen Stufen der Kritikalität (auch jenseits der Einordnung im geplanten AI Act [4] und der damit verbundenen Anforderungen) soll geschaffen und in entsprechenden Normen verankert werden. Es soll auf niederschwellige Weise vermittelt werden, was vertrauenswürdige KI ausmacht, wie die Systeme einzuordnen sind und welche Anforderungen aus welchen Gesetzen umzusetzen sind.

Konkret beinhaltet das die folgenden Punkte:

Niederschwellige und für Hersteller*innen und Benutzer*innen transparente Zuordnung von KI-Anwendungen in Hinblick auf ihre Kritikalität
Für Hersteller*innen: gezielte Klärung, welche Anforderungen aus welcher Gesetzgebung für welche Anwendungen bzw. Kritikalitätsstufen umzusetzen sind, um gesetzeskonforme und vertrauenswürdige KI-Systeme entwickeln zu können. Durch geeignete Normen/Werkzeuge soll ein gut erfassbarer Überblick geschaffen werden, der die Zusammenhänge zwischen den Anforderungen, den zugehörigen Gesetzen sowie den für den jeweiligen Use Case erforderlichen Schritten aufschlüsselt.
Für Benutzer*innen: schneller und niederschwelliger Einblick in die unterschiedlichen Kritikalitätsstufen und deren Anforderungen auf einem verständlichen Niveau, um die Vertrauenswürdigkeit von KI-Systemen in geeigneter Weise erfassbar zu machen."

01-15 Standardisierung von Language Technology und Natural Language Processing APIs und Datenstrukturen

Die APIs von sprachtechnologischen Cloud-Services sind nicht standardisiert und somit jeweils unterschiedlich, was Vergleich, Testen, Benchmarken und Austausch unterschiedlicher APIs erschwert bzw. unmöglich macht, d. h. aktuell ist keine Interoperabilität gegeben. Zur im besten Fall automatisierten Nutzbarmachung von Datensammlungen ist es notwendig, Metadatenbeschreibungen so zu standardisieren, dass alle wesentlichen Eigenschaften einer Datensammlung in maschinenlesbarer, semantisch annotierter Form vorliegen. Zahlreiche Initiativen arbeiten an dieser Thematik, insbesondere Nationale Forschungsdateninfrastruktur (NFDI), European Open Science Cloud (EOSC) und Gaia-X.

Für Automatic Speech Recognition (ASR)-Verfahren existieren außerdem bisher keinerlei Vorgaben oder Richtlinien, auf welche Weise z. B. Interpunktion oder Zahlen behandelt, d. h. transkribiert werden. Für den besseren Vergleich, für das Benchmarking und auch für den Austausch entsprechender Services ist eine Standardisierung notwendig.

DFKI hat in diesem Bereich bereits erste Erfahrungen im Rahmen des EU-Projekts European Language Grid gemacht sowie unter Mitwirkung der University of Sheffield erste Vorschläge vorgelegt. Dieser Aspekt betrifft auch eine Reihe beigelagerter Themen, z. B. Annotationsformate, Workflows, Benchmarks, Transferlearning bei Sprachmodellen. Das Problem: Alle Anbieter verfolgen jeweils ihre eigene Philosophie, d. h. sie bieten unterschiedliche, proprietäre APIs an. Hilfreich wäre es, die Technologien eines Anbieters mit Standarddatensätzen (oder eigenen Daten) und Standardmetriken zu evaluieren und somit vergleichen zu können (z. B. WER für ASR). Dieses Thema betrifft auch große Sprachmodelle, d. h. insbesondere, wie Sprachmodelle angesprochen werden, um Transferlearning durchzuführen. Zur Relevanz für die Industrie: Kein Unternehmen kann allein ein großes Sprachmodell entwickeln, weshalb Finetuning und Transfer auf Basis standardisierter Methoden und Schnittstellen missionskritisch sind, um das Sprachmodell an den jeweiligen Use Case anzupassen.

Mindestens europaweite Standardisierung von Language Technology und Natural Language Processing APIs bezüglich Funktionsumfang und Parametrisierung sollte erfolgen, sodass mehr Interoperabilität und auch bessere Vergleichbarkeit zwischen den Cloud-Services einzelner Anbieter entsteht. In diesem Zusammenhang können auch Datenformate, z. B. bezüglich Datenaustausch, und semantische Annotationsformate betrachtet werden. Dazu gehören die Standardisierung von Metadaten, Datensammlungen, Data-Sheets, Model-Cards, Sprachmodelle, Zugänglichkeit, Nutzung von Daten und Datensammlungen für Forschungszwecke und kommerzielle Anwendungen (kann ggf. in NFDI, EOSC, Gaia-X etc. eingebettet werden). Des Weiteren ist die Standardisierung von Richtlinien für Transkriptionsverfahren hilfreich, die oft ASR beinhalten oder auf ASR-Ausgaben aufsetzen, z. B. Zahl als Zahl, Zahl als Wort etc., Interpunktion, Groß- und Kleinschreibung etc.

Dieser Punkt schließt auch die Orchestrierung von Services in Form von Workflows oder Pipelines ein. Der Aspekt betrifft zudem die Standardisierung von Benchmarks zum Vergleich diverser Lösungen, z. B. ASR oder Natural Language Understanding (NLU). Im Rahmen von Anwendungen im Bereich des Dialogmanagements betrifft dieser Aspekt auch die Standardisierung von Ressourcen für die Modellierung von Dialogen.

01-16 Standardisierung der Messung von Performanz, Korrektheit, Präzision und Plausibilität großer Sprachmodelle sowie der Datenqualität

Sprachmodelle stellen derzeit für viele sprachtechnologische Anwendungen den Stand der Forschung und Technik dar, allerdings existieren noch keine Standards bzw. Messung grundsätzlicher Eigenschaften wie z. B. Korrektheit, Präzision, Faktizität, Selbstkonsistenz etc. – u. a., um ein Sprachmodell einschätzen und unterschiedliche Sprachmodelle vergleichen zu können. Die Selbstkonsistenz eines Modells kann z. B. beinhalten, ob sich ein Modell bei bestimmten verwandten Fragen widerspricht. (Anm.: Regelbasierte/symbolische Modelle sind allerdings heute schon Teil von Hybridsystemen bzw. Pipelines). Beispielsweise kann die Messung des Wahrheitsgrads des Outputs von sprachmodellbasierten Anwendungen (bzw. die Selbstkonsistenz des Modells) – falls technisch möglich (und wenn auch nur in einigen klar definierten Bereichen) und belastbar realisierbar – die Qualität des Sprachmodells signalisieren. Zu beachten ist dabei, dass vermehrt auch multimodale Modelle, Bildverstehen, Kombination von Sprache und Bild, Zeichensprache (Erkennung und Generierung) auf Basis großer Sprachmodelle (Stanford nennt diese auch foundation models) durchgeführt werden.

Für das Training von Sprachmodellen und anderen maschinellen Lernverfahren werden u. a. Text-, Audio- und Videodaten eingesetzt. Derzeit existieren noch keine Standards zur Messung der Qualität derartiger Daten und Datensammlungen, u. a. um zu entscheiden, ob sie im Rahmen eines Trainingsdatensatzes nutzbar gemacht werden sollten. Standardisierte Verfahren zur Messung von Datenqualität besitzen ebenfalls eine große Relevanz für den Aspekt von Datenbias.

Standardisierung der Messung der Performanz, Korrektheit, Precision, Plausibilität im jeweiligen Anwendungskontext großer Sprachmodelle ist wünschenswert. In diesem Zusammenhang ist auch die Messung der Qualität des Outputs von generierenden Sprachmodellen relevant, z. B. bezüglich Sinnhaftigkeit, Grammatikalität, Semantik. Hier existiert ein Bedarf für standardisierte Metriken. Ferner müsste der Begriff „Sprachmodell” definiert werden, und zwar bezüglich Abgrenzung zu textverarbeitenden, evtl. auch regelbasierten Modellen.

Die Standardisierung von Ansätzen zur Messung von Datenqualität für Sprachmodelle, d. h. insbesondere Textqualität, aber auch Audioqualität und Videoqualität sind relevant für die Zusammenstellung von Datensets, die z. B. für das Training von Sprachmodellen benutzt werden, sowie für die Messung von Bias. Dies betrifft u. a. die Auswahl der Daten, die für das Training von Sprachmodellen eingesetzt werden, um z. B. Bias und Hatespeech zu bewerten/zu vermeiden etc. Auch für die Beschreibung und Messung von Bias selbst (inklusive einer Spezifizierung der unterschiedlichen Dimensionen von Bias, z. B. political bias, gender bias etc.) müssen Ansätze beschrieben und standardisiert werden.

01-17 Wissensgraphen und Ontologien in große Sprachmodelle

Während Sprachmodelle den Stand der Wissenschaft und Technik für eine Vielzahl sprachtechnologischer Aufgaben darstellen, existieren zahlreiche Wissensbasen, Wissensgraphen und Ontologien, die symbolisches Wissen bzw. semantisches Wissen in symbolischer Repräsentation enthalten. Derzeit existieren noch keine Standards, wie derartige Wissensbasen und Ontologien in Sprachmodelle integriert und der jeweiligen Anforderung entsprechend sicher (Bewertung der „Kritikalität“) nutzbar gemacht werden können. Dieser Aspekt betrifft auch die Zusammenführung und Integrierung unterschiedlicher Wissensbasen und Wissenspakete.

Die Standardisierung von Ansätzen, wie Wissensgraphen und Ontologien in große Sprachmodelle, die integrierbar und nutzbar gemacht werden können, dient der Nutzung existierender symbolischer Wissensbestände im Rahmen der Stand der Forschung und Technik von Sprachtechnologien, die typischerweise auf großen Sprachmodellen basieren. Hierbei sollte auch die Zusammenführung, Integration und Verwaltung von Ontologien und Ontologiemodulen bzw. Ontologiepaketen aus unterschiedlichen Quellen betrachtet werden. Dabei können auch Ansätze betrachtet werden, wie (eher ontologiebasiertes) Weltwissen in (eher dokumentbasierte) Wissensgraphen integriert werden kann. Diese Aspekte sind wichtig und relevant für die Nutzung symbolischer Wissensbasen (d. h. Ontologien) im Rahmen von Knowledge-Graph-basierten Anwendungen.

01-18 Test- und Auditing-Prozesse für KI-Sprachanwendungen

Im Kontext von vertrauenswürdiger KI wird die Standardisierung von Test- und Auditing-Prozessen auch für (lernende und kontinuierlich lernende) NLP-Systeme an Bedeutung gewinnen.

Insbesondere, wenn NLP-System wie Suchmaschinen, Empfehlungssysteme oder Chatbots als Entscheidungsunterstützungssysteme in kritischen Anwendungen dienen, wird es nötig sein, Test- und Auditingprozesse zu definieren. Dazu gehören neben den direkten Variablen (Art und Erzeugung der Testitems, Metriken zur Auswertung der Ergebnisse) auch die Frage der Prozessbeteiligten. Beispielsweise kann es im Gesundheitsbereich geboten sein, Patient*innenvertreter in einem partizipativen Prozess in die Gestaltung und Ausführung der Tests einzubeziehen. Kontinuierlich lernende Systeme werden in bestimmten Zyklen erneut getestet und auditiert werden müssen. Hier muss festgelegt werden, nach welchen Kriterien die Zyklen bestimmt werden.

01-21 Bewertungsmetriken und Methoden für Bilddatensätze und Erhebungs-/Synthetisierungsverfahren und bildauswertende ML-Verfahren entwickeln

Datensätze übernehmen insbesondere bei modernen ML-Verfahren zunehmend die Rolle von Parametern. Entsprechend werden, beispielsweise im Entwurf AI Act, Anforderungen an KI-Systeme auch mittels Anforderungen an Datensätze formuliert. Jedoch fehlen derzeit standardisierte Verfahren, anhand derer Qualitätseigenschaften von Datensätzen übergreifend beschrieben werden könnten. Einzelfallspezifische Verfahren erreichen jedoch keinerlei Vergleichbarkeit und begrenzen damit die Einschätzbarkeit unterschiedlicher KI-Verfahren. Eine Standardisierung entsprechender Verfahren zur Güteabschätzung sowie die gezielte Entwicklung von standardisierungsfähigen, anwendungsübergreifenden Verfahren kann hier wesentlich zu einem besseren, übergreifenden Verständnis beitragen – auch wenn die standardisierten Metriken nicht den Anspruch eines unumstrittenen, absoluten Gütekriteriums erfüllen, sondern lediglich eine transparente, übergreifende Indikation ermöglichen.

Es sollten standardisierte Bewertungsmetriken erarbeitet werden, die es erlauben, entweder Datensätze (aus echten oder aus synthetisch erzeugten Bilddaten) oder Verfahren, die diese Datensätze erzeugen, nach gängigen Gütekriterien zu bewerten. Diese Metriken sollten gängige Zielvorgaben, beispielsweise gemäß Entwurf EU-AI Act, aufgreifen (vgl. [4]), „Relevanz, Repräsentativität, Fehlerfreiheit und Vollständigkeit in Hinblick auf die beabsichtigte Anwendung“) und geeignete Messprinzipien dieser Zielvorgaben spezifizieren. Diese Metriken sollten weitgehend unabhängig von KI-Methoden oder Anwendungen sein, einschränkende Annahmen/Anwendbarkeiten, wo erforderlich, jedoch klar benennen. Bestehende Ansätze (beispielsweise [97]) sollen auf Eignung untersucht werden. Wo keine geeigneten Verfahren bestehen, die eine Abschätzung leisten können, sollen im Rahmen von F&E neue Ansätze erarbeitet werden.

01-22 Metriken zum Test bildverarbeitender KI-Systeme standardisieren

Analog zum Bedarf „Bewertungsmetriken und Methoden für Bilddatensätze und Erhebungs-/Synthetisierungsverfahren entwickeln“ besteht ein Bedarf zur Standardisierung von Metriken, die die Bewertung bildverarbeitender KI-Systeme ermöglichen und gleichzeitig deren Anwendungsgebiet definieren. Beispielsweise hat sich in der wissenschaftlichen Gemeinschaft die Metrik der „mean Intersection over Union“ (mIoU) für die Bewertung von ML-Verfahren zur Bildsegmentierung etabliert. Entsprechende Metriken sollten auch für andere Aufgabenstellungen wie z. B. Objektdetektion, Klassifizierungen oder Bildumwandlung bereitgestellt werden. Analoge Metriken für gängige KI-Verfahren gemeinsam zu standardisieren kann zur Vergleichbarkeit heterogener Ansätze beitragen.

Dabei ist zu berücksichtigen, dass die Metriken ggf. risikoabhängige Komponenten enthalten können (z. B. risikoabhängige Bewertungen von Segmentierungsfehlern z. B. in kritischen Regionen bei medizinischen Bilddaten). Diese Mechanismen sollten dabei so generisch/modellagnostisch gestaltet werden, dass sie leicht auf unterschiedliche Szenarien übertragen werden können.

01-23 Verfahren zur cybersicheren Authentifizierung auf Basis von Bilddaten

Es sind Verfahren zu entwickeln, die beurteilen, inwieweit gegebene Bildmerkmale nach dem Stand der Technik noch vertrauenswürdig sind (und mithin zur Authentifizierung genutzt werden können) und ab wann entsprechende Merkmale beispielsweise durch „Deep Fakes“ manipuliert sein können. Vorgehensweisen zur Sicherstellung der Authentizität von Identitäten und Informationen sind zu spezifizieren, anhand derer für unterschiedliche Anwendungen ein entsprechend benötigter Grad an Vertrauen hergestellt werden kann.

01-26 Umwandlung von DIN SPEC 13266:2020 [98] in eine Norm

Es scheint keine Norm für Deep-Learning-Systeme zu geben.

DIN SPEC 13266:2020 [98] ist eine Spezifikation für Deep-Learning-Systeme und beschreibt den aktuellen Stand der Technik sehr gut. Daraus soll eine Norm werden.

02-05 Abstrakte Zerlegung der KI-Komponente in Daten und Prozesse

Aktuelle Komponenten eines KI-Systems, aufbauend auf dem aktuellen Stand aus ISO/IEC 22989:2022 [16], weiter verfeinern (der aktuellen Forschung bzw. dem Diskussionsvorschlag entsprechend) und zerlegen zur genauen Beschreibung der Angriffe und Verwundbarkeiten. Das Ziel ist ein abstraktes Komponentenmodell zur weiteren Verwendung für die Beschreibung von Risiken und Maßnahmen für verschiedene KI-Verfahren und zur KI-Zertifizierung.

02-06 Existierende KI-Angriffe und Risiken mit existierenden zertifizierbaren IT-Sicherheitszielen abgleichen

Schafft man eine Abbildung von Angriffen auf KI-Komponenten (z. B. Data Poisoning) auf IT-Sicherheits-Schutzziele entsprechend einer Beschreibung der schutzwürdigen Gegenstände der KI-Komponenten, so ermöglicht dies, existierende Bausteine aus der Prüfung und Zertifizierung von IT-Systemen auch möglichst schnell für KI-Systeme wiederzuverwenden. Als Basis für ein solches Mapping sollten die bestehenden Dokumente der ENISA [119] oder des BSI (referenz cloud AI-Katalog) [81] (Letzeres ggf. mit ISO SC 38) weiterverfolgt und der Normung möglichst widerspruchsfrei zwischen ISO/IEC SC 27 (IT-Sicherheit) und ISO/IEC SC 42 (KI) zugeführt werden. Es existieren bereits Prüfprozesse und entsprechende Zertifizierungen für IT-Sicherheit. Diese sollten, wo möglich, Anwendung auch für die Prüfung und Zertifizierung der IT-Sicherheit des KI-Systems bzw. der einzelnen KI-Komponenten im Einsatz für das gesamte System finden. Um nicht unnötig neue Prozesse und Controls für KI-Systeme und die dort verwendete(n) KI-Komponente(n) zu beschreiben, gilt es, existierende Bedrohungen für KI-Komponenten hinsichtlich des Schutzgegenstands (ggf. auch nur für Subkomponenten der KI-Komponente wie Daten, Modell, Prozess etc.) und des IT-Sicherheitsschutzzieles (beispielsweise Integrität) zu beschreiben. Dies würde dann ermöglichen, bestimmte Controls wiederzuverwenden, beispielsweise führt Data Governance zu einem Überblick, woher Daten stammen, erschwert damit Angriffe auf die Integrität von Trainingsdaten und vermindert damit das Risiko für einen sogenannte Data-Poisoning-Angriff. Dies ermöglicht einen ersten Maßnahmenkatalog (wie im Anhang DIN EN ISO/IEC 27001 [480] oder in DIN EN ISO/IEC 27002 [481]) für KI-Sicherheit und KI-Privacy, basierend auf existierenden Maßnahmen, aufzustellen. Dies zeigt auch mögliche Lücken, also Schutzbedarfe, für die es KI-spezifischer Maßnahmen bedarf. Wo die Angriffsvektoren sehr speziell sind und sich nicht (oder nicht einfach) auf eine Menge existierender IT-Sicherheitsschutzziele abbilden lassen, sind dann spezielle Kriterien zu erarbeiten.

02-07 Standardisierung von KI-Produkt- und Prozessprüfverfahren für Security und Privacy

IT-Security und Privacy für KI ist sowohl ein Thema eines KI-Security-Managementsystems in der Organisation, über den Lebenszyklus und die Lieferkette, als auch aus einer funktionalen Produktsicht einer singulären Softwarekomponente oder aus der Perspektive des umfangreichen KI-Systemkomplexes inklusive der möglichen Wechselwirkungen. Für alle Bereiche sollte Security- und Privacy-Standardisierung mit passenden Kontrollkriterien, Prüfwerkzeugen und Prüfverfahren sowie Managementsystemanforderungen für Prüfung und Zertifizierung erarbeitet werden, insbesondere für Machine-Learning-Methoden und in kritischen Umgebungen/Infrastrukturen. Für die Prüfung der IT-Sicherheit von Produkten, Systemen und Prozessen gibt es verschiedene etablierte Prüfverfahren und Zertifizierungsschemata. Es befinden sich neue Ansätze in Entwicklung, um sich den sich ändernden Herausforderungen in der IT-Sicherheit anzupassen. Prüfverfahren und Akkreditierungsverfahren sind essenziell, um die Qualität der Prüfung durch unabhängige Dritte sicherzustellen sowie die Nachvollziehbarkeit und Vergleichbarkeit von Ergebnissen zu verbessern.

Wie im ENISA-Report [119] angeregt, sollte weitere Forschung angepasste Security Controls für Machine Learning untersuchen, validieren, Benchmarks für ihre Wirksamkeit erstellen und hinsichtlich ihrer Implementierung standardisieren.

02-08 Ausarbeitung eines horizontalen Querschnittsstandards und vertikale Ausprägungen zu Security

Empfehlenswert wäre die Herausarbeitung von horizontalen Themen zu Cybersecurity und Privacy für KI zur Prüfung und Zertifizierung, die alle Sektoren betreffen, sowie eine Schnittstelle zu sektorspezifischen Anforderungen. Ein horizontales Thema wäre beispielsweise die Anforderung an eine geeignete Zugriffskontrolle. Als vertikale Ausprägung können wiederum spezielle Security-Anforderungen aus dem sektoralen Umfeld angesehen werden, wie u. a. für den Bereich der Medizinprodukte.

02-09 Entwicklung von Metriken und Controls gemäß den Standardisierungsanforderungen des geplanten EU AI Act

Entwicklung von Standardisierung zu Cybersecurity-Anforderungen aus dem AI Act für Metriken und Controls zur Messung und Vermeidung von Cyberangriffen sowie Methoden für Prüfung, Auditierung und Zertifizierung inklusive Anforderungen an die Kriterien für die Prüfmaßnahmen und Prüfenden.

Dabei erscheint es wichtig, eine gemeinsame Arbeitsgruppe mit den Gremien der Cybersecurity und KI in den Standardisierungsorganisationen von Deutschland, der EU und eventuell auch international zu etablieren.

03-07 Entwicklung von Qualifikationskriterien für Prüfer und Zertifizierter zu Cybersecurity und Privacy für KI

Entwicklung eines Standards mit Kriterien für die Qualifikation von Prüfern, Auditoren und Zertifizierern für Cybersecurity und Privacy bei KI unter Berücksichtigung bestehender Standards aus der DIN EN ISO/IEC 27000er-Folge [131].

Aktuell bestehen etablierte Prüf- und Zertifizierungsverfahren an die Qualifikation von Expert*innen zur Prüfung und Zertifizierung von Cybersecurity und Privacy, aber noch nicht für KI. Diese sind ergänzend notwendig.

03-09 Definition von Kontrollpunkten

Anhand des KI-Lebenszyklus sind einzelne Prüfpunkte, an denen eine Konformitätsbewertung (Level 4 und 3) stattfinden muss, mit einem Minimalset an Evaluationstätigkeiten zu definieren, um die Konformität mit den rechtlichen Anforderungen, die in Gesetzesvorhaben wie dem europäischen AI Act oder dem kanadischen Artificial Intelligence and Data Act [170] definiert werden, bewerten und bestätigen zu können.

Dabei ist eine klare Rollendefinition auf der Ebene der KI-Entwickler*innen/Herstellenden/Inverkehrbringer als auch auf der Ebene der Konformitätsbewertungsstellen und Akkreditierungsstellen notwendig.

Nach einer klareren Rollenstruktur gilt es dann, herauszuarbeiten, welche Rolle (aus Level 5 oder Level 3) an welchem Punkt im KI-Lebenszyklus in die Entwicklung, Evaluierung, den Einsatz und die Stilllegung des KI-Systems integriert werden muss, um die gesetzlichen Anforderungen zu erfüllen.

Bessere Verzahnung von Unternehmen, die KI-Systeme entwickeln und/oder in Verkehr bringen, mit den Konformitätsbewertungsstellen (erster, zweiter und dritter Seite).

04-01 Berücksichtigung der Dynamik von KI-Systemen bei der Gestaltung von Aufgaben-, Interaktions- und Informationsschnittstellen

Bei der Planung und Gestaltung von KI-Systemen sind die Umsetzung von ergonomischen Grundsätzen und Prinzipien sowie eine gebrauchstaugliche Gestaltung von Produkten und Arbeitsmitteln erfolgswirksame Ziele. Damit ist die Anwendung dieser ergonomischen Grundsätze und Prinzipien auch ein wesentliches Gütemerkmal von KI-Systemen als Arbeitsmittel bzw. Gebrauchsgegenständen.

Gestaltungskonzepte in Ergonomie/Human Factors (u. a. zur soziotechnischen Gestaltung) bezogen sich in der Vergangenheit vorwiegend auf statische technische Systeme (z. B. Schnittstellengestaltung zu statischer und stationärer Maschine). Nicht nur, aber auch durch KI (als inhaltlich und zeitlich dynamisches System mit nicht mehr dokumentierbaren Ursache-Wirkungs-Beziehungen) muss das EHF-Gestaltungskonzept erweitert werden, damit Dynamik von Schnittstellen, Funktionsweisen und Auswirkungen auch für Menschen passend gestaltet werden.

Die einschlägigen Normen zur Ergonomie (z. B. DIN EN ISO 6385:2016 [235], DIN EN ISO 26800:2011 [239], DIN-EN-ISO-9241-Reihe [514], DIN-EN-ISO-10075-Reihe [513], DIN-EN-614-Reihe [180] [181] [182], DIN EN 894-1:2009 [244], DIN EN ISO 11064:2011 [243]) berücksichtigen die resultierenden Anforderungen aus der soziotechnischen Gestaltung eines KI-Systems i. d. R. noch nicht hinreichend und lassen oft die Wechselwirkungen zwischen Mensch, Technik und Organisation im Zusammenspiel mit KI-Systemen außer Acht. Zudem werden Interaktionskonzepte und Anforderungen an die Informationsdarstellung derzeit nur unzureichend abgebildet für eigendynamische Systeme, für die eine kontinuierliche Aufgabenbearbeitung erforderlich ist und für die Steuerungseingriffe nicht rückgängig gemacht werden können.

04-02 Berücksichtigung soziotechnischer Aspekte bei der Gestaltung von KI-Systemen

Die Art und Weise des Arbeitens verändert sich mit der Einführung von KI-Anwendungen, die Anforderungen an dem Menschen ebenso. Bei der Einführung von KI-Systemen sind daher die Organisationsentwicklung, das Change Management sowie die Qualifizierung der Beteiligten wichtige Fragestellungen. Im Sinne einer soziotechnischen Systemgestaltung sind daher Technologieeinsatz und Organisation gemeinsam zu planen bzw. zu optimieren.

Einschlägige Prozessnormen, z. B. für die Gestaltung der Organisation (DIN EN ISO 27500:2017 [271]), Qualitätsmanagementsysteme (DIN EN ISO 9000:2015 [264]), Umweltmanagementsysteme (DIN EN ISO 14001:2015 [265]), Energiemanagementsysteme (DIN EN ISO 50001:2018 [266]), Managementsysteme für Sicherheit und Gesundheit bei der Arbeit (DIN ISO 45001:2018 [267]) berücksichtigen die besonderen Anforderungen beim Einsatz von KI-Lösungen meist noch nicht hinreichend und sind daher zu ergänzen, insbesondere im Hinblick auf die soziotechnischen Aspekte.

04-03 Erfüllung des Standardisation Requests zum EU AI Act, Aspekt „Transparenz“

Der Entwurf zur KI-Verordnung der EU (KI-VO) legt einen Fokus auf die soziotechnische Perspektive: Die Anforderung, Transparenz und Informationen für Benutzende zur Verfügung zu stellen, kann nur erfüllt werden, wenn das KI-System als soziotechnisches System verstanden und der Mensch als Teil des Systems mitgedacht wird.

Welche Transparenz in welchem Kontext für welche Zielgruppe ausreichend ist und welche Basisinformationen als Grundlage für menschliche Eingriffe ins System vorhanden sein müssen – das sind Fragestellungen, die nicht die KI bzw. KI-Entwickler*innen an sich betreffen, sondern vielmehr die Menschen, die mit ihr interagieren.

Zur Erarbeitung dieser Norm ist es daher entscheidend, die relevanten Akteur*innen breit zu beteiligen.

04-04 Erfüllung des Standardisation Requests zum EU AI Act, Aspekt „Menschliche Aufsicht“

Der vorliegende Entwurf zur KI-Verordnung der EU (KI-VO) legt einen Fokus auf die soziotechnische Perspektive: Die Anforderung, eine menschliche Aufsicht zu gewährleisten, kann nur erfüllt werden, wenn das KI-System als soziotechnisches System verstanden und der Mensch als Teil des Systems mitgedacht wird.

Wie menschliche Aufsicht in unterschiedlichen Rollen und mit einer Reihe von Eingriffsmöglichkeiten bis hin zu einer „Stopptaste“, die von Menschen ausgelöst wird, umgesetzt werden soll und welche Basisinformationen als Grundlage für menschliche Eingriffe ins System vorhanden sein müssen – das sind Fragestellungen, die nicht die KI bzw. KI-Entwickler*innen an sich betreffen, sondern vielmehr die Menschen, die mit ihr interagieren.

Zur Erarbeitung dieser Norm ist es daher entscheidend, die relevanten Akteur*innen breit zu beteiligen.

05-01 Erstellung eines Referenzmodells für KI-Engineering

Schaffung eines gemeinsamen Grundverständnisses der Begriffe sowie der Zusammenhänge der verwendeten Konzepte als Hilfestellung für den/die Ingenieur*in in Zusammenarbeit mit Informatiker*innen und Datenwissenschaftler*innen.

Definition und Erläuterung von Begriffen und Konzepten und deren Zusammenhänge zum System Engineering unter besonderer Berücksichtigung des Einsatzes von KI-Methoden in Subsystemen; ggf. Aufbau eines formalen Modells (z. B. UML, Ontologie, ...)

05-02 Liste und Definition von nicht-funktionalen Merkmalen (Qualitätskriterien) für KI-basierte Systeme, bezogen auf die Entwicklung und den Betrieb

Schaffung eines einheitlichen Verständnisses für Stakeholder (z. B. Systemanforderer, Systemingenieur*in), Aufbau eines einheitlichen Rechtsrahmens, Schaffung von Rechtssicherheit für das Systemverhalten und die Zertifizierbarkeit.

Definition und Beschreibung der Bedeutung für kennzeichnende Merkmale wie Akzeptanz, Verlässlichkeit, Zuverlässigkeit, Planbarkeit, Kontrollierbarkeit, Erklärbarkeit, Cybersicherheit (Security), funktionale Sicherheit (Safety), Unsicherheit.

05-03 Einheitliche Vorgehensweise für die Bewertung von KI-basierten Systemen gemäß definierten Kriterien

Definition von allgemeingültigen Kriterien und Workflows zur Abnahme und zum Vergleich der Leistungsfähigkeit von KI-basierten Systemen.

Beschreibung wesentlicher Arbeitsschritte im Workflow und der Anwendung von Bewertungskriterien, insbesondere bei hochkritischen Systemen gemäß dem Entwurf zum AI Act der EU.

05-04 Vorgehensmodell für das Engineering und den Betrieb von KI-basierten Systemen

Entwicklung einer Hilfestellung für den/die Systemingenieur/in, wie KI-basierte Systeme grundsätzlich entwickelt, betrieben und gewartet werden sollen.

Definition einzelner Prozessschritte für Entwicklung, Test, Abnahme, Betrieb, Wartung. Beschreibung der Struktur des Systems und der Subsysteme sowie der KI-basierten Teile. Angaben zur vorteilhaften Anwendung von agilem vs. linearem Vorgehen, definierte Designartefakte, Angaben zur Dokumentation.

05-05 Aufbau einer standardisierten Metadatenbeschreibung von KI-Methoden

Schaffung von Möglichkeiten für den Aufbau von Lösungsräumen (u. a. Kataloge) für Anforderungsmuster.

Definition eines Ordnungsrahmens und Klassifikation von KI-Methoden, Formulierung von semistrukturierten Anwendungsfällen und Ableitung potenzieller KI-Methoden zu deren Lösung.

06 Auszeichnungen von Datenstrukturen und Modellen zu Verwendung, Erhalt und Rekonstruktion ihrer ursprünglichen Intentionen

Verschiedene Parteien (Werkzeuge, Systeme, Wissensingenieure) sollen gleiche Modelle mit deckungsgleicher Interpretation ihrer Semantik nutzen können, um Abweichungen und Verluste bei der Verarbeitung zu vermeiden. Dadurch sollen ursprüngliche Intentionen von Datenstrukturen und Modellen durchgängig ausgedrückt, weitergegeben und rekonstruiert werden. Dies ermöglicht eine verlustfreie Anwendung von Modellen und deren Validierung auf konsistente Interpretationen über mehrere Parteien entlang einer Verarbeitungskette („Pipeline“).

Es soll daher eine validierbare Semantik der Intentionen von Strukturen und Modellen über verschiedene Parteien entlang von Pipelines hinweg definiert werden. Dazu werden robuste Vorgehensweisen und Mechanismen beschrieben und definiert, anhand derer die Intentionen von Datenstrukturen, Mustern und Modellen ausgezeichnet, erhalten und validiert werden können.

05-07 Validierbare Transformationen von Strukturen und Modellen

Transformationsmechanismen von Werkzeugen und Systemen für den Import und Export von Strukturen und Modellen sollen transparent und überprüfbar sein, um Veränderungen der transformierten Inhalte erkennen zu können sowie Fehlinterpretationen zu vermeiden. Dadurch sollen Werkzeuge und Systeme dediziert gemäß ihren Fähigkeiten angesprochen und getestet werden können. Zusätzlich bietet ein solches Verhalten die Möglichkeit, von außen zu erkennen, ob ein Werkzeug ihm angebotene Inhalte verlustfrei verarbeiten kann.

Transformationsmechanismen sollen deshalb über entsprechende Kapselung ihre Fähigkeiten und Datenstrukturen/-formate validierbar bekannt geben, sodass entlang einer Kette von Transformationen vorab die Semantik des Ergebnisses ersichtlich ist. Dazu sind Auszeichnungsmechanismen und -strukturen auf Schnittstellenebene zu definieren, anhand derer sich Transformationsmechanismen verstehen, einordnen und testen lassen.

05-08 Identifikation und Behebung struktureller Probleme in den Grundbausteinen für kompatiblen Daten-/Modellaustausch und KI

Alle Verarbeitungsebenen entlang von aufeinander aufbauenden Grundbausteinen für Daten-/Modellaustausch und KI („Stacks“) erfordern eine ganzheitliche auditierbare Konformität verwendeter syntaktischer Strukturen. Aktuell werden je nach Stufe der adressierten Semantik in Stacks etwa bestimmte (Daten-)Strukturen erlaubt oder verboten (Beispiel: der W3C Semantic Web Stack erlaubt auf RDF-Ebene syntaktisch Strukturen, die auf darauf aufbauender OWL-Ebene nicht mehr zulässig sind). Dies führt dazu, dass ein „Label der Stack-Konformität“ für Werkzeuge und Pipelines nicht ausreicht. Zur Ausführung eines KI-Mechanismus erforderliche Inhalte müssen aber bei auditierbarer Konformität verwendeter Werkzeuge mit vorgegebenen Anforderungen und Stacks verlustfrei beigesteuert werden.

Für Transformationsmechanismen entlang von Stacks sollen Prüfmerkmale definiert werden, anhand derer Inhalte automatisch auf Nutz- bzw. Interpretierbarkeit mit den jeweils höheren/niedrigeren Stufen der Stacks geprüft werden können. Dazu wird vorgeschlagen, Stacks hinsichtlich der vertikal durchgängigen Interpretierbarkeit von Inhalten zu untersuchen und für die jeweilige Überbrückung von Stufen entsprechend standardisierte Transformationen zu definieren. Diese sollen sich anhand ihrer Semantik auch mit anderen Stacks kombinieren lassen, sodass ein semantikerhaltender Transport von Inhalten hin zu KI-Mechanismen über verschiedene Stacks hinweg gewährleistet werden kann.

05-09 Definition von Metriken und Methoden zur Bewertung der Datenqualität u. a. in ML-Datenmodellen

Die Datenqualität ist ein entscheidender, auch wirtschaftlicher, Einflussfaktor, sobald Transaktionen über die Datenmodelle ausgeführt werden. Heute fehlen standardisierte Methoden, um dieses Merkmal zu ermitteln, als auch Metriken, um die Datenqualität bewerten zu können. Eine Aussage zur Datenqualität führt zu einer Aussage zur Modellqualität und damit zu einer erfolgreichen KI-Umsetzung.

Es wird vorgeschlagen, Methoden und Metriken zur Datenqualität einzuführen und Mechanismen zu definieren, mit denen dieses Merkmal validiert werden kann.

05-10 Skizzierung einer spezifischen I4.0-Methodik für den Entwurf von I4.0-Systemen mit KI-Komponenten

Bedarf für eine I4.0-Methodik ergibt sich aus Anforderungen einer einheitlichen semantischen Betrachtung von I4.0-Systemen und von Industrieanlagen samt Daten, Vorgängen und Kriterien für die Interoperabilität zwischen Mensch und Maschine und Maschine-Maschine. Dazu gehört u. a. sprachliche Ausdruckskraft zur ontologischen Charakterisierung eines Produkts oder Verfahrens.

Ziel der I4.0-Methodik ist es, ein Vokabular mit Anwendungsregeln zu haben, womit formale und vom Rechner ausführbare Ontologien erstellt und die von Mensch und Maschine jeweils auf ihre besondere Art „verstanden“ (d. h. logisch vom Menschen und operational von der Maschine) und verwendet werden können.

05-11 Standardisierung und Katalogisierung von allen nach dem Schema Ding-Ontologie/Symbol-Semantik kategorisierten Artefakten und ihre Sammlung in stakeholderspezifischen Katalogen für Designer, Entwickler, Operateure etc.

Die Semantik von Anwendungsszenarien soll in einer sowohl vom Menschen nachvollziehbaren Art und in einer von der Maschine ausführbaren Art dargestellt werden können. Das ist mit der Verwendung von Graph- und Datentypen der Fall. Folgen von beobachtbaren datenverarbeitenden Ereignissen werden also für die Beschreibung von I4.0-Herstellungsprozessen und Produkten verwendet. So können die Anforderungen einer bestimmten Erzählung eines Anwendungsszenariums einerseits anschaulich als Graph-Trajektorie und andererseits semantisch klar dargestellt werden. Ein Beispiel für ein I4.0-Narrativ (formal dargestellt als Graph-Trajektorie mit Zielzustand) ist der „value flow“ in den gegebenen Referenzarchitekturmodellen.

Eine I4.0-Methodik bietet standardisierte Werkzeuge und Artefakte u. a. zur Gestaltung von Anwendungsszenarien, Anwendungsbeispielen oder zum Schreiben von Narrativen an. Narrative zeichnen sich dadurch aus, dass sie ein prüfbares Ziel oder eine validierbare Absicht, z. B. eine erfolgreiche Qualitätskontrolle in der Produktion, mit der Herstellung eines Produkts verbinden. Alle Schritte, die unternommen werden, um das gesetzte Ziel zu erreichen, müssen dokumentiert werden. Dazu stehen Metadaten-Artefakte zur Verfügung. Die Vergleich- und Nutzbarkeit der katalogisierten Artefakte ergibt sich aus der Menge der angewendeten Regeln (d. h. der Semantik) zur Gestaltung oder zum Entwurf eines Dings oder Asset.

05-12 Formalisierung von Metriken, Evaluationen, Testing, Verifikation, Modellbildung mit Mitteln einer Common Logic

Da nur rudimentäre Konzepte eines gemeinsamen Verständnisses oder einer Sprache in der vertikalen Normung und in I4.0-Branchen zu beobachten sind, driften auch die Bewertungskriterien zur Prüfung von Functional-Safety- oder Security-Anforderungen auseinander. Daher gibt es großen Handlungsbedarf bei der Normung von Bewertungsschemata und -kriterien.

Eine gemeinsame Sprache erlaubt es, gemeinsame Darstellungs- und Bewertungsmaßstäbe zu etablieren. Die Common Logic/Semantics umfasst sprachliche, ontologische und logische Kategorien von Artefakten, womit z. B. die Digital-Twin-Modellbildung oder eine semantiktreue, d. h. verhaltensmäßig korrekte Implementierung (im Vergleich zum Modell) der cyberphysischen Wirklichkeit überprüft werden kann.

05-13 Prüf- und Evaluierungsmethoden für Assets mit eingebauten KI-Komponenten zur Abschätzung des Einflusses der KI auf die System- oder Komponentenqualität

KI oder ML werden als Werkzeuge betrachtet, die, in Assets eingebaut, die Qualität der Assets verändern können. Daraus ergibt sich Bedarf, zu prüfen, inwiefern Qualitätsveränderungen auf die Functional Safety eines Assets Einfluss haben.

Bedarf ergibt sich aus der Abschätzung der Auswirkung von neuen (KI-)Werkzeugen und Komponenten, eingebaut in Fertigungsanlagen und Produkte, bezüglich der Beziehungen zwischen Mensch und Maschine z. B. auf gemeinsam durchzuführende Aufgaben, auf die Qualität der so hergestellten Produkte etc.

05-14 Beschaffung von Argumenten und Metadaten, die zur Belegung der Vertrauenswürdigkeit der Maßnahmen beteiligter Stakeholder verwendet werden können

Vertrauenswürdigkeit ist nicht immer nur ein Problem der Produktqualitätsvermessung, sondern oft ein Problem der Produktnutzung, in welcher Transparenz und Selbsterklärbarkeit des Eingabe-/Ausgabeverhaltens eine Rolle spielen. Daher gibt es Bedarf an Methoden, die Wirksamkeit der Kontrolle über das Produkt oder die Produktionsstätte zu verifizieren.

Der Bedarf, die Vertrauenswürdigkeit eines Produkts oder Verfahrens zu belegen, wandelt sich u. a. mit veränderlichen Technologien und Verfahren, z. B. angewendet in einer Produktionsanlage. Es ist also ein permanenter Prozess der Erneuerung, der auch eine permanente Überprüfung der Zusicherung der Vertrauenswürdigkeit erforderlich macht.

05-15 Aufbau und kontinuierliche Aktualisierung einer (semantischen) Normungslandkarte mit eingebauten Hilfen zur Nutzung der Landkarte

Normen werden oft zur Gestaltung von Anlagen und Produkten isoliert betrachtet und geschrieben, ohne tiefere Kenntnisse oder Bezüge zu anderen relevanten horizontalen und vertikalen Standards, weil ein semantisches Koordinatensystem für Normen in der Normungslandschaft fehlt.

Eine standardisierte Form einer gemeinsamen Darstellung von Semantik kann hilfreich sein bei Versuchen, zusammenhängende Normungsthemen in einer heterogenen Normungslandschaft, wie sie sich z. B. aus dem RAMI4.0 ergibt, aufzufinden und ggf. zu prüfen.

05-19 Standardisierung der Aspekte des Ökosystems „Mensch & KI“

Mensch & KI entwickeln sich zu einem Ökosystem mit Auswirkungen auf gesellschaftliches, wirtschaftliches, privates und arbeitsplatzbezogenes Handeln des Menschen und seiner Kooperation mit Maschinen, die sich auf KI stützen.

Um das Ökosystem transparent zu gestalten, ergibt sich folgender Normungsbedarf:

Aufzeigen der gegenseitigen Wirkungen KI vs. Mensch.
Beschreiben und Definieren von Verantwortlichkeiten der „KI“ und des Menschen in unterschiedlichen Rollen und Kollaborationen.
Beschreiben und Definieren von Szenarien im mehrdimensionalen Zusammenspiel von KIs und Menschen.

05-20 Realisierung und Umsetzung des Digital Service Act (DSA) im Ökosystem „Mensch & KI“ in verschiedenen vertikalen Anwendungen und Datenräumen

Der DSA enthält 35 Artikel, gruppiert in acht Kapitel, Anleitung, um Datenräume aus privatem Datenbesitz aufzubauen. In diesen Datenräumen können KI-Komponenten zur Auswertung der verfügbaren Daten eingesetzt werden.

Normungsbedarf ergibt sich für die von der Wirtschaft benötigten Datenräume, gefüllt mit Wirtschafts-, Produktions- und Arbeitsdaten aus privatwirtschaftlicher Hand. Dieser Kooperationsprozess zwischen gebenden und nutzenden Stakeholdern muss mit Standards, Regelungen und Gesetzgebung zum Nutzen aller geformt werden.

05-22 Neue Normungsprojekte für „formale und semiformale“ Standards zur semantischen Konkretisierung technischer Themen und dem Verhalten von Systemen, die im Rahmen der technischen Normung zu leisten sind

Mit formalen und semiformalen Standards sind Normungstexte gemeint, die teilweise oder ganz „computerisiert“, also mit einem Rechner ver- und bearbeitbar sind. Ein Beispiel dafür wäre der „Digitale Zwilling“.

Viele Themen und Aussagen in der Normung und Regulierung betreffen sich überschneidende Kompetenzbereiche. So ist z. B. der politische Meinungs- und Gesetzgebungsprozess für die regulative Ausgestaltung maßgeblich, der den konkreten Rahmen für bestimmte technische Anwendungsfälle und Zielstellungen gibt (z. B. Geräte, die auch einen militärischen Nutzen haben können).

06-04 Kontinuierliche (Weiter-) Entwicklung und Validierung im Betrieb

Wie in Kapitel 4.6.2 dargestellt, müssen sowohl die Entwicklungsprozesse für hochautomatisierte Mobilitätssysteme als auch die für eine Typzulassung bzw. für eine Zertifizierung solcher Systeme notwendigen Analyse- und Testverfahren so erweitert werden, dass sie die kontinuierliche (Weiter-)Entwicklung solcher Systeme inklusive Updatefähigkeit basierend auf im Feld gesammelten Daten, zugehörigem Laufzeittest sowie der Angemessenheit und funktionalen Sicherheit der gewählten Rückfallebenen erlauben. Für KI-Systeme bzw. Systeme mit KI-basierten Komponenten ergibt sich hier insbesondere die Herausforderung der Nachweismöglichkeiten der funktionalen Sicherheit dieser Komponenten in einer für die Typzulassung notwendigen Genauigkeit und Umfang – dies gilt sowohl für die Typzulassung des Systems, die Zertifizierung von ggf. notwendigen Updates, den notwendigen Laufzeittests und der funktionalen Sicherheit von innerhalb der Rückfallebenen realisierten KI-Funktionalitäten. Insgesamt müssen diese Prozesse und Verfahren somit eine dynamische, kontinuierliche (Re-)Zertifizierung bzw. Typzulassung im Sinne einer kontinuierlichen Systementwicklung erlauben.

Die zu etablierenden und bestehenden Standards müssen sowohl diese Entwicklungsprozesse unterstützen als auch Anforderungen an die Typzulassung definieren und dabei insbesondere die Updatefähigkeit sowie das über Laufzeitprüfung und Rückfallebenen realisierte Sicherungskonzept unterstützen. Neben der besonderen Berücksichtigung von KI-Komponenten im o. a. Sinne sollten hierbei auch Erkenntnisse in Form von kritischen Szenarien herstellerübergreifend katalogisiert werden können. Dies dient auf der einen Seite der kontinuierlichen Verbesserung der Systeme und auf der anderen Seite der Schärfung der Sicherheitsanforderungen (z. B. bei Domain-Shifts).

Die zu etablierenden Standards und Normen sollten daher insbesondere umfassen:

systematische Identifikationsprozesse für kritische Szenarien,
herstellerübergreifende Schnittstellen, Austauschprozesse und Vorgaben für ein Ökosystem mit unabhängigen Stellen (insbesondere für Szenarienkataloge),
Vorgaben zur Überwachung, Prüfung, Absicherung und Zertifizierung von Systemen mit KI-Komponenten innerhalb eines kontinuierlichen Entwicklungs- und Update-Prozesses,
Best Practices zur Mitigation von KI-System-Fehlfunktionen im Bereich Mobilität,
Leitlinien / Best Practice für eine Safe-/Trustworthy-by-design-Entwicklung für relevante Anwendungsfälle (s. Spalte Anwendungsfälle) bzw. idealerweise generalisierte Empfehlungen mit konkreten Hinweisen zur anwendungsspezifischen Anpassung,
Vorgaben zu sicheren Rückfallebenen einschließlich einer Kontrollübernahme durch den Menschen,
Handlungsempfehlungen zur Festlegung von Verantwortlichkeiten bei der Entwicklung, der Prüfung und dem praktischen Einsatz von KI-Technologie in der Mobilität.

06-05 Analyse-, Simulations- und Testmethoden sowie Testinfrastruktur

Die Komplexität der Anwendung von KI-Technologie in der Mobilität erfordert a) interdisziplinäres Wissen, b) standardisierte Methoden und Werkzeuge, c) große Mengen an qualitätsgesicherten Daten, die oftmals Beschränkungen der Nutzung z. B. hinsichtlich Datenschutz unterliegen, und d) große Rechenressourcen für Simulationen, Training und Prüfung. Dies erfordert zum einen den Einsatz simulativer Methoden, zum anderen eine Erprobungs- und Testinfrastruktur, deren Anforderungen nur durch sehr wenige Großkonzerne oder staatlichen Akteur*innen erfüllt werden können. Hier ist eine enge Kooperation mit vielen Partner*innen erforderlich, u. a. durch Informationsaustausch, gemeinsame Projekte, geteilte Daten- und Rechenressourcennutzung (vgl. auch [345]). Um eine solche Kooperation zu ermöglichen und auch eine Vergleichbarkeit automatisierter Mobilitätssysteme und der eingesetzten KI-Komponenten insbesondere bezüglich Trustworthiness und Safety und deren Nachweisen zu etablieren, sind nicht nur die Mindestanforderungen an die Systeme zu standardisieren. Es ist vielmehr auch notwendig, geeignete Methoden zur Unterstützung der Entwicklung der Systeme und Überprüfung ihrer Eigenschaften zu definieren. Dabei stellen simulative Methoden eine kostengünstige und ungefährliche Möglichkeit zur Unterstützung der Entwicklung und Überprüfung von KI-Komponenten und Systemen mit KI-Komponenten für Mobilitätslösungen dar. Ohne diese zu standardisieren und durch Qualitätskriterien überprüfbar zu machen, kann eine Vergleichbarkeit der Ergebnisse nicht erreicht werden. Deshalb ist auch in vielen Anwendungsdomänen die Entwicklung und Zurverfügungstellung einer gemeinschaftlich nutzbaren (virtuellen oder physischen) Testinfrastruktur sinnvoll, um einen engen interdisziplinären und internationalen Informationsaustausch, die gemeinsame Nutzung von Daten und Rechenressourcen zur Entwicklung und Prüfung in Simulation und der physischen Welt und den Austausch von Methoden und Werkzeugen einfach zu ermöglichen. Bezüglich der funktionalen Sicherheit kommt der Qualität der Simulationsverfahren eine besondere Bedeutung zu; hier muss sichergestellt werden, dass die Simulation eine ausreichend hohe Übereinstimmung mit der Realität hat, um belastbare Aussagen für die Typzulassung und die Zertifizierung dieser Systeme zu erhalten. Aktuell existieren weder Methoden noch Argumentationsketten, die diese Übereinstimmung im ausreichend hohen Maße garantieren.

Die zu etablierenden Normen und Standards sollten insbesondere umfassen:

virtuelle Simulations- und Testmethoden, Prüfumgebungen und deren Qualität,
Verfahren zur Verifikation und Validierung (v. a. Erweiterung des „Sotif-Standards“ ISO 21448:2022 [90] auf andere Domänen wie z. B. Eisenbahn),
Leitlinien zur Zertifizierung von KI sowie Entwicklungs- und Testmethoden,
standardisierte Begrifflichkeiten zur effizienten Kommunikation,
standardisierte Schnittstellen zum Austausch von Daten, Modellen und Simulationen,
standardisierte Vorgehensweisen zur gemeinsamen Datenhaltung, Entwicklung und Prüfung von KI-Systemen.

07-02 Gestaltung geeigneter Metriken für unterschiedliche Arten KI-basierter Medizinprodukte

Die Konformitätsbewertung bei Medizinprodukten erfordert eine systematische Überprüfung ihrer Leistungsfähigkeit und auch ihrer Sicherheit, die bei KI-Systemen in Form geeigneter Metriken entsprechend quantifiziert werden muss. Dabei gibt es einige Abweichungen in Vergleich zu anderen Branchen. Übergeordnet ist bei Medizinprodukten immer der klinische Outcome zu bewerten, der sowohl Risiken als auch den Nutzen für die Patient*innen beinhaltet. Deshalb erfordert die MDR in der klinischen Bewertung eine systematische Betrachtung des Risiko-Nutzen-Verhältnisses als zentralen Schritt im Konformitätsbewertungsverfahren. Zudem ist ein Abgleich mit Referenzverfahren wie dem etablierten Standard of Care und auch den sich bereits auf dem Markt befindlichen Produkten erforderlich. Das erfordert, dass definierte Referenzkriterien vorhanden sind, um nicht nur einzelne Systeme zu bewerten, sondern einen gezielten Vergleich zwischen Systemen umzusetzen inklusive Maßgaben, bis wann eine Äquivalenz der Systeme als gegeben angesehen werden kann. Idealerweise sollten für unterschiedliche Anwendungen Benchmarking-Datensätze vorliegen, um einen standardisierten Abgleich vollziehen zu können.

Hinzu kommt, dass im medizinischen Bereich die Bewertungen stark use-case-spezifisch umgesetzt werden müssen, damit der spezifische Nutzen bzw. die resultierenden Risiken gezielt bewertet werden können. Dabei ist zu berücksichtigen, dass es sehr unterschiedliche Anwendungsbereiche gibt, die z. B. Aufgabenstellungen in den Bereichen Diagnostik, Monitoring und Therapie umfassen und diese zusätzlich mit unterschiedlichen Autonomie- und Risikograden verbunden sein können. Gerade bei KI-basierten Systemen können dabei neben technischen Risiken auch Faktoren wie Transparenz oder Erklärbarkeit (wie kommt die KI grundsätzlich zu welcher Entscheidung, welche Grundannahmen legt sie dabei zugrunde, welche Schritte vollzieht die KI zum aktuellen Zeitpunkt) sowie die Eingriffsmöglichkeiten im Rahmen einer menschlichen Aufsicht als Kriterien einfließen. Diese sind ebenfalls im Sinne ihrer klinischen Wirksamkeit zu betrachten.

Um Risiken effektiv reduzieren und den Nutzen optimieren zu können, ist es im Grunde erforderlich, diese Faktoren in die Bewertungsmetriken einfließen zu lassen. Derartige Faktoren können oftmals gegenläufig sein (z. B. Transparenz vs. Genauigkeit, Sicherheit für die einzelnen Patient*innen vs. Nutzen für eine bestimmte Bevölkerungsgruppe), sodass Zielkonflikte entstehen, die das Bewertungskriterium als Ganzes erfassen muss. Eine Reduktion einzelner Risiken, so wie es typischerweise in Risikomanagement-Normen anvisiert wird, ist gerade bei KI-basierten Systemen nur bedingt wirkungsvoll. Dabei ist zu beachten, dass die Integration von Risikoaspekten in die Metriken auf abgestufte Weise erfolgen sollte, da oftmals während der Entwicklung eine Quantifizierung dieser Punkte nicht vollständig möglich ist. Diese Integration sollte keine essenzielle Hürde für die erfolgreiche Bewertung der Konformität eines Medizinprodukts sein, aber das Verbesserungspotenzial der Systeme möglichst gezielt ausschöpfen.

Insofern gibt es einige Anforderungen, die über bestehende Ansätze hinausreichen und für die KI-spezifische Vorgaben zu entwickeln sind. Es ist zu klären, welche Metriken in Bezug auf KI-basierte Systeme relevant sind und wie diese in Hinblick auf die Konformitätsbewertung umzusetzen sind. Dies beinhaltet insbesondere die folgenden Aspekte.

Bereitstellung standardisierter Metriken, um einen systematischen Abgleich verschiedener Systeme für vergleichbare Anwendungsfälle umsetzen zu können.
Integration von KI-spezifischen Risikofaktoren und Aspekten des klinischen Nutzens in die Bewertungskriterien, sodass eine Optimierung des Risiko-Nutzen-Verhältnisses im Gesamtsystem in geeigneter Weise umgesetzt werden kann.
Festlegung von überprüfbaren, ggf. gestuften Anforderungen an die Transparenz und die Erklärbarkeit, die es Anwender*innen und Patient*innen erlauben, das grundlegende Wirkprinzip zu verstehen, und dem Anwendenden zugleich eine Orientierung bei der kritischen Bewertung von KI-basierten Entscheidungen ermöglicht.
Berücksichtigung unterschiedlicher Autonomiegrade und Anwendungsbereiche (z. B. Diagnostik vs. Monitoring vs. Therapie) sowie der jeweils damit verbundenen Qualitätskriterien. Klärung von deren Wechselwirkung mit Maßnahmen im Entwicklungs- und Lebenszyklusprozess von Medizinprodukten.

07-04 Autonomiegrade bei KI-basierten Systemen – verschiedene Stufen von Human-in-the-Loop bis hin zu Closed-Loop-Modellen

Im Bereich KI-basierter Anwendungen in der Medizin gibt es ein breites Spektrum an Autonomiegraden, die bei unterschiedlichen Aufgabenstellungen auftreten – von einem reinen Mitloggen der Daten über dedizierte diagnostische Entscheidungshilfen und Unterstützungssysteme im Bereich Monitoring (wie z. B. der Intensivmedizin) bis hin zu hochautomatisierten Systemen. Bei einem geringen Autonomiegrad müssen die Benutzer*innen (z. B. medizinisch geschultes Personal) die algorithmischen Ergebnisse in einer verlässlichen Weise überwachen können („Human/Clinician in the Loop“-Systeme). Das erfordert, dass die Benutzer*innen auch in dynamischen und komplexen Umgebungen ein ausreichendes Verständnis des Systems haben, um auf dessen Entscheidungen richtig reagieren zu können. Bei einem hochautomatisierten Ansatz – im Extremfall einem Closed-Loop-System – muss das zentrale Systemverhalten hingegen ohne einen Eingriff des Menschen gesteuert werden und dennoch sicher funktionieren. Im Gegensatz zu anderen Branchen (z. B. Automobilbereich mit Abstufungen von assistiertem Fahren bis zu autonomem Fahren) gibt es im Bereich der Medizintechnik keine konsequente Einteilung in Autonomiegrade, sondern nur sehr begrenzte Anhaltspunkte. Die PD IEC/TR 60601 4 1:2017 [373] beinhaltet in Annex C Klassifizierungstabellen für Autonomiegrade, die jedoch keine KI-basierten Aspekte adressieren. Für Closed-Loop-Systeme, die klassische, regelbasierte Ansätze verwenden (z. B. anhand physiologischer Modelle) gibt es mit der DIN EN 60601-1-10:2021 [375] eine normative Grundlage, bei der jedoch ebenfalls der klassische physiologische Regelkreis im Fokus steht und nicht ein KI-basiertes System.

Daher besteht ein Bedarf an Klärung, welche Autonomiegrade in Bezug auf KI-basierte Systeme relevant sind und wie sich diese auf die Konformitätsbewertung bei KI-basierten Medizinprodukten und speziell auf die Interaktion mit dem Menschen (bei Human-in-the-Loop-Systemen) bzw. mit physiologischen Systemen (bei manchen Closed-Loop-Systemen) auswirken. Das beinhaltet insbesondere die folgenden Aspekte.

Definition unterschiedlicher Autonomiegrade und Klärung der daraus resultierenden Anforderungen hinsichtlich der Maßnahmen im Entwicklungs- und Lebenszyklusprozess von Medizinprodukten. Das betrifft insbesondere den Einfluss der Autonomiegrade in Bezug auf die Bewertung/Behandlung von Risiken, der Validierung der Systeme oder auch der Überwachung im Feld. Zudem ist die Wechselwirkung mit anderen Parametern der Risikobewertung, z. B. Schweregrad und Eintrittswahrscheinlichkeiten, zu berücksichtigen. Bei ML-basierten Systemen kommen weitere Parameter wie Komplexität und Interpretierbarkeit der Systeme hinzu. Insgesamt ist ein konsequent risikobasierter Ansatz zu entwickeln, der die Abstufungen bezüglich der Autonomiegrade entsprechend berücksichtigt und Anpassungen der damit verbundenen Anforderungen gezielt ermöglicht.
Speziell bei Human-in-the-Loop-Ansätzen: Klärung der Anforderungen in Bezug auf die Mensch-Maschine-Interaktion (siehe auch Anforderungen zur menschlichen Aufsicht im geplanten AI Act): Welche Informationen benötigen die Benutzer*innen in welcher Weise, um erforderliche Reaktionen umsetzen zu können, z. B. auch in Unterscheidung zwischen Alarmen (unmittelbare Erforderlichkeit einer Aktion) und Alerts (Aufmerksammachung zur Initiierung weiterer Klärungsschritte)? Das beinhaltet zudem Klärungen bezüglich der Anforderungen an Transparenz und Erklärbarkeit/Interpretierbarkeit der Systeme speziell auch in Bezug auf das sehr dynamische Systemverhalten, das KI-basierte Systeme aufweisen können. Dabei ist zu klären, welche Maßnahmen die menschliche Aufsicht beinhalten kann, um Risiken wie ein zu starkes oder zu schwaches Verlassen auf die Entscheidungen des Systems oder einen Model Drift zu vermeiden.
Speziell bei Closed-Loop-Systemen: Klärung der Anforderungen an die Verlässlichkeit von KI-basierten Systemen oder Komponenten, die nicht wie bisherige Closed-Loop-Systeme hauptsächlich auf etablierten physiologischen Modellen basieren. Zudem Klärung, ab wann ein System nur eine Konfiguration von Parametern (z. B. KI-basierte Abschätzung / Anpassung individueller Parameter) und wann eine Veränderung des Closed-Loop-Systemverhaltens darstellt sowie Klärung der Frage, unter welchen Bedingungen / mit welchen Anforderungen Kombinationen aus KI-basierten und klassischen physiologischen Modellen, d. h. hybride Modelle, auf den Markt gebracht werden können.

07-06 Anwendung von Assurance Cases zur Erbringung von Sicherheitsnachweisen bei KI-basierten Anwendungen im Bereich der Medizin

Alternativ zur Auslegung bestehender regelbasierter, aber den Bereich KI unzureichend adressierender Normen erscheint ein stärker zielorientiertes Vorgehen bei Sicherheitsnachweisen für KI-Komponenten mittels des in der ISO/IEC/IEE 15026 1:2019 [114] definierten Konzepts der Assurance Cases gerade im medizinischen Bereich als sinnvolle Grundlage und Brücke zu kommenden KI-Standards [382], die daher intensiver betrachtet werden sollte. In der Norm wird ein Assurance Case hierbei als begründbares und überprüfbares Artefakt verstanden, das die Annahme stützt, dass eine aufgestellte Behauptung (z. B. bezüglich der Sicherheit eines Medizinprodukts) erfüllt ist und dabei eine systematische Argumentation sowie die zugrunde liegenden Beweise und expliziten Annahmen, auf die sich die Behauptung stützt, umfasst ISO/IEC/IEE 15026-1:2019 [114].

Der Einsatz von Assurance Cases wird insbesondere dann empfohlen, wenn innovative Anwendungsfälle umgesetzt oder neuartige Technologien zum Einsatz gebracht werden sollen [383]. Beides liegt beim Einsatz von KI in Medizinprodukten gewöhnlich vor. Mittels Assurance Cases lässt sich so der Nachweis der Einhaltung von im jeweiligen Bereich akzeptierten Risikoakzeptanzkriterien (vgl. z. B. [384]) strukturiert auf die durch die Qualitätssicherung erbrachten Evidenzen herunterbrechen [385]. Hierdurch wird die Relevanz und der Beitrag der jeweiligen Maßnahmen bei der Absicherung der KI-Anteile des Produkts transparent aus der Sicherstellung eines akzeptablen Risiko-Nutzen-Verhältnisses sowie der Reduktion des Restrisikos begründbar.

Erfahrungen aus der Anwendung von Assurance Cases als strukturierte Argumentationen unterstützen zudem bei der Entwicklung von Normen mit begründbaren Anforderungen. Die Entwicklung und Konsolidierung geeigneter Argumentationsmuster beim Einsatz von KI in Medizinprodukten sowie ihre praktische Anwendung, beispielsweise im Rahmen von Experimentierräumen, sollte daher durch die Politik gefördert werden.

Empfehlungen:

Förderung der Anwendung von Assurance Cases als sinnvolle Grundlage und Brücke zu kommenden KI-Standards

08-01 Definition nachprüfbarer Antidiskriminierungsmetriken zum Nachweis der Diskriminierungsfreiheit einer KI-Lösung

KI soll eine möglichst positive Wirkung entfalten, muss auf der anderen Seite aber Regeln unterworfen sein. Dort, wo es im Finanzdienstleistungssektor um Menschen geht, ist eine wichtige Regel das Diskriminierungsverbot. Die Einhaltung der Regeln durch Anbieter, die Überprüfung durch Kontrollbehörden und die Darstellung gegenüber den Verbraucher*innen ist eine große Herausforderung, u. a. weil der Begriff Diskriminierung mehrdeutig und mit anderen Begriffen wie Fairness, Gerechtigkeit und Gleichbehandlung verwandt ist.

Im Folgenden wird Diskriminierung als ungerechtfertigte Benachteiligung oder Bevorzugung verstanden. (Im Sinne von Art. 3 Abs. 3 GG der Bundesrepublik Deutschland.) Eine – im besten Fall automatisierte – nachprüfbare Definition von Diskriminierung kann sich aus der Normung von Metriken diesbezüglich ergeben.

Hierbei gibt es einige Schwierigkeiten:

In der aktuellen Forschung werden Antidiskriminierungsmetriken oft als „Fairnessmetriken“ bezeichnet.
Darüber hinaus gibt es in der aktuellen Diskussion mehr als eine Diskriminierungsmetrik.
Nicht alle bisher bekannten Antidiskriminierungsmaße können gleichzeitig eingehalten werden.
Entwickelnde von KI-Lösungen müssen also die Möglichkeit der Auswahl haben.
Bei der Einhaltung von Metriken muss es erlaubte Toleranzen geben, wenn sich die Metriken in der Praxis nicht exakt einhalten lassen.

Eine vertrauensvolle KI kann eine Chance für Europa und europäische Firmen im Wettbewerb mit US-amerikanischen und chinesischen KI-Anbietern sein. Der Finanzsektor würde besonders von Maßen profitieren, da es hier weniger Vertrauenspersonen gibt als z. B. mit den Ärzt*innen im Medizinsektor. Denkbar wäre ein „Gütesiegel“ in Analogie zum „Blauen Engel“ oder dem Nutri-Score und/oder eine Bewertung im „S“-Teil von Environmental Social Governance (ESG-Scores) für Unternehmen.

Anbieter*innen und Entwickler*innen von KI-Lösungen profitieren von der Rechtssicherheit durch objektive und automatisiert nachprüfbaren Regeln."

08-02 Normung der für Nichtdiskriminierung relevanten Merkmale und des Umgangs damit

In den Gesetzen und Vorgaben zu Antidiskriminierung werden die relevanten Merkmale inkonsistent genannt.

Beispiele:

Charta der Grundrechte der EU (Art. 21 „Nichtdiskriminierung“): „Diskriminierungen, insbesondere wegen des Geschlechts, der Rasse, der Hautfarbe, der ethnischen oder sozialen Herkunft, der genetischen Merkmale, der Sprache, der Religion oder der Weltanschauung, der politischen oder sonstigen Anschauung, der Zugehörigkeit zu einer nationalen Minderheit, des Vermögens, der Geburt, einer Behinderung, des Alters oder der sexuellen Ausrichtung, sind verboten.“

Vertrag über die Arbeitsweise der EU: „... discrimination based on sex, racial or ethnic origin, religion or belief, disability, age or sexual orientation.“

Eine einheitliche und abschließende Liste der Merkmale kann helfen, Aufwände bei der Erstellung von KI-Lösungen zu vermeiden bzw. die Leistungsfähigkeit einer KI-Lösung zu verbessern.

Darüber hinaus soll genormt werden, wie die relevanten Merkmale bei der Erstellung der KI-Lösungen berücksichtigt werden sollen. Ein genereller Ausschluss ist möglicherweise kontraproduktiv. Beispiel: Unter der Annahme, dass die Kreditwürdigkeit einer Person von der Dauer der bisherigen Bankverbindungen abhängt und zugleich historisch bedingt insbesondere ältere Frauen im Mittel kürzere Bankverbindungen haben, wäre eine gegebene Dauer einer Bankverbindung für eine Frau möglicherweise positiver zu werten als für einen Mann. Entfernt man das Merkmal „Geschlecht“ aus den Lerndaten, wären ältere Frauen systematisch benachteiligt.

Anbieter*innen und Entwickler*innen von KI-Lösungen profitieren von der Rechtssicherheit durch konsistente Regeln.

08-03 Normung der Berücksichtigung von Nichtdiskriminierungsaspekten bei der Erstellung einer KI-Lösung zum Nachweis der Diskriminierungsfreiheit

Eine weitere Möglichkeit des Nachweises der Diskriminierungsfreiheit einer KI-Lösung ist nicht das Produkt / der Service selbst, sondern, den Erstellungsprozess des Produkts/Services in Hinblick auf die Berücksichtigung des Diskriminierungsverbots zu normen. Die in 08-01 angeforderten Metriken können dabei eingebracht werden, dadurch dass ein genormter Prozess die Verwendung genormter Metriken vorschreibt. Dabei muss es möglich sein, den Einfluss der Einhaltung der Metriken auf die Gesamtperformance der KI-Lösung zu ermitteln.

08-04 Definition des Begriffs Fairness durch nachprüfbare Metriken

Fairness ist ein Begriff, der noch weniger definiert ist als Diskriminierung. Im Unterschied zu Diskriminierung ist er nicht gesetzlich geregelt und taucht nicht in der Charta der EU-Grundrechte und im Vertrag über die Arbeitsweise der EU nur im Zusammenhang Sport auf. Umso mehr bedarf es Normen analog zu denen in 08-01 und 08-03 in Bezug auf „Nichtdiskriminierung“ genannten.

Auch eine „faire“ KI – also das freiwillige Einhalten von Fairnessmetriken – kann im Sinne der Begründung von 08-01 ein Vertrauens- bzw. Verkaufsargument für KI-Lösungen im Finanzbereich sein.

08-05 Regeln für den Nachweis der Abdeckung aller relevanter Faktoren bei Gruppenbetrachtungen

Wenn KI-Systeme Aussagen über Gruppen machen, sind diese nicht notwendigerweise auf das Individuum übertragbar. Daher muss sichergestellt sein, dass entweder keine wesentlichen individuellen Faktoren im Modell fehlen oder eine Geltendmachung und Berücksichtigung grundsätzlich möglich ist, sofern sie nicht ethischen Grundsätzen widerspricht. Dies gilt insbesondere, wenn Grundrechte aufgrund von Modellen eingeschränkt werden, die Aussagen über Gruppen von Individuen machen.

Im Kontext von Finanzanwendungen, aber auch bei anderen sozioökonomischen Systemen, steht häufig eine Risikobetrachtung über die Gruppe im Vordergrund, etwa bei der Vorhersage des erwarteten Verlusts in einem Kreditportfolio oder bei der erwarteten Ausbreitung einer Krankheit. Eine korrekte Vorhersage für das Portfolio und entsprechende Risikopreise (oder, analog, entsprechende Gesundheitsschutzmaßnahmen), muss aber auch für das Individuum (dessen Grundrechte berührt werden) unter allen für es verfügbaren Informationen optimiert werden. Das heißt, es müssen je nach Schwere der Konsequenzen alle individuellen Faktoren berücksichtigt werden, die nachweislich einen signifikanten Einfluss auf die Prognose haben. Es braucht daher Regeln, nach denen die relevanten Faktoren bestimmt werden."

08-06 Erarbeitung und Definition von (Mindest-)Anforderungen an eine KI-Plattform "Es sind Leitplanken zur Ausgestaltung einer robusten KI-Plattform aus der Perspektive der Informationssicherheit notwendig. Davon betroffen sind nicht nur rein technische Aspekte einer entsprechenden IT-Plattform, sondern auch die prozessuale Ausgestaltung der Entwicklung und späteren Operationalisierung des KI-Systems. Der Begriff der KI-Plattform definiert sich hier aus der Summe der die KI bereitstellenden Systemkomponenten bzw. deren Subkomponenten sowie der zugehörigen Daten und Prozesse, die über die Lebenszyklusphasen der KI Anwendung finden.

Nicht nur der spätere Betrieb, sondern auch schon die Entwicklung stellt hohe Anforderungen an die Informationssicherheit einer KI-Plattform. Neben den direkten und erweiterten Schutzzielen der Informationssicherheit sind bezüglich der Mindestanforderungen für KI-Plattformen insbesondere auch Vorgaben aus dem Datenschutz zu berücksichtigen.

Vor allem im Bereich der Finanzdienstleistungen ist die Kritikalität dieser Aspekte besonders hoch. Dies ist vor allem damit begründet, dass KI-Use-Cases in der Finanzwirtschaft meist durch eine deutlich geringere Distanz zum Endkunden geprägt sind und so Informationen wie beispielweise Bonitäts- und Gesundheitsdaten Verwendung finden, welche eine erhöhte Sensibilität erfordern.

Deshalb sollten hohe Anforderungen an eine KI-Plattform im Finanzdienstleistungssektor gestellt werden. Diese müssen mit der bestehenden spezifischen Regulatorik (BAIT, VAIT, KAIT etc.) im Einklang sein. Um dem erhöhten Schutzbedarf gerecht zu werden, ist es aber nicht notwendig, die bereits bestehende Regulatorik umfassend zu erweitern. Vielmehr soll eine zielgerichtete, praxisnahe Präzisierung und ein Verweis in Form von Leitplanken und konkreten Vorgaben (i. S. v. Best Practices) erfolgen. Es gilt zu berücksichtigen, dass künftige Änderungen bzw. Ergänzungen der aufsichtlichen Anforderungen nicht auszuschließen sind. Dies gilt insbesondere mit Blick auf die aktuell laufenden internationalen Regulierungsvorhaben.

08-07 Rahmenbedingungen zum Umgang mit Trainingsdaten für KI-Modelle

Für Daten, welche zu Testzwecken in der Finanzwirtschaft verwendet werden, existieren umfangreiche (Verhaltens-)Anforderungen. Hinsichtlich Trainingsdaten für KI-Systeme sind die bestehenden Restriktionen hinsichtlich der Praktikabilität und Beibehaltung eines hohen Schutzbedarfs zu überprüfen.

Für das Training der Modelle, die in KI-Systemen zum Einsatz kommen, werden häufig Daten aus der Produktivumgebung (so weit möglich und sinnvoll anonymisiert) genutzt. Damit sind die Trainingsdaten nicht gleichzusetzen (und vor allem nicht gleichzubehandeln) beispielsweise mit synthetischen Testdaten, die für die Qualitätssicherung von IT-Systemen genutzt werden.

Synthetische Testdaten haben keinen Bezug zu realen Daten und lassen damit auch keine Rückschlüsse auf solche zu. Der Schutzbedarf synthetischer Testdaten ist daher in der Regel niedrig und entsprechend sind es auch die Anforderungen für den Umgang mit ihnen. Hier gibt es eher Vorgaben, dass reale Daten nicht für Tests genutzt werden dürfen.

Trainingsdaten für KI-Modelle müssen aber (in einem gewissen Rahmen) Rückschlüsse zulassen, damit die auf ihnen trainierten Modelle valide sind. Damit ist ihr Schutzbedarf deutlich höher als derjenige synthetischer Testdaten. Daher sind die (geringen) Auflagen für synthetische Testdaten nicht übertragbar auf Trainingsdaten, hier werden weitergehende Regelungen benötigt.

Die Trainings-, Validierungs- und Testdaten der KI-Modelle besitzen somit den gleichen Schutzbedarf wie die Produktivdaten. Im Fall von Finanzdienstleistungen besteht in der Regel mindestens hoher Schutzbedarf (die höchste Schutzbedarfsklasse für personenbezogene Daten). Hier müssen geeignete Rahmenbedingungen insbesondere mit Hinblick auf Informationssicherheit und Datenschutz geschaffen werden, die einerseits dem hohen Schutzbedarf Rechnung tragen und andererseits das Training der KI-Modelle zulassen.

08-08 KI-spezifische Angriffsszenarien und Schutzmaßnahmen

Durch KI entsteht eine neue Risikosituation in der Finanzwirtschaft zum einen durch die Veränderung der Intensität bestehender Risiken, aber auch durch neue Angriffsvektoren. Die veränderten Rahmenbedingungen sind in einer Normung zu berücksichtigen.

Durch den Einsatz von KI in IT-Systemen werden – unter dem Aspekt der Informationssicherheit – zusätzliche Angriffstypen und Angriffsszenarien möglich. Um das Risiko derartiger Angriffe angemessen zu reduzieren, sind diese im Rahmen von Maßnahmen zur Informationssicherheit zu beachten. Das Dokument „Sicherer, robuster und nachvollziehbarer Einsatz von KI“, welches vom BSI [83] veröffentlicht wurde, benennt u. a. Evasion/Adversarial Attacks, Data Poisoning Attacks, Privacy Attacks, Model Stealing Attacks.

In aktuellen Normen und Standards für IT-Systeme (ohne speziellen Fokus auf die Frage, ob KI zum Einsatz kommt) wird auf diese Angriffsszenarien bzw. entsprechende Maßnahmen nicht spezifisch eingegangen. In einer Norm für KI-Systeme sollte darauf jedoch eingegangen werden.

Dieser Bedarf wird im Kontext von Finanzdienstleistungen geäußert, da die Sicherheitsanforderungen hinsichtlich Vertraulichkeit, Verfügbarkeit und Integrität (mindestens) hoch sind. Dies zeigt sich auch in bestehenden Anforderungen und Normen für allgemeine IT-Systeme durch die regulatorischen Anforderungen der Bankenaufsicht. Regelungen, die für den Einsatz von IT-Systemen (ohne Künstliche Intelligenz) sind, sind vor dem Hintergrund einer potenziell veränderten Risikosituation zu betrachten. Basierend hierauf sind zusätzliche Schutzmaßnahmen zu implementieren, die auf die konkrete Bedrohungslage abzielen.

08-09 Festlegung von Kriterien, die für eine automatisches Entity-Matching ausreichend sind

Für kritische Systeme dürfen Identitäten in zwei unterschiedlichen Datensätzen nur gematcht werden, wenn sie zu 100 % übereinstimmen. Daher muss festgelegt werden, welche Kriterien hierfür ausreichend sind. Auch für nicht-kritische Systeme dient es der Qualität, wenn Daten den richtigen Identitäten zugeordnet werden.

Beispiel: Kundennummer ist nicht eindeutig zur Person zuzuordnen. Im Finanzsektor sind die Datensätze, die zum Training einer KI verwendet werden, nicht immer über eindeutige Identifizierungsmerkmale zugeordnet wie z. B. die Personalausweisnummer oder die Krankenversichertennummer im Gesundheitssektor.

08-10 Festlegung von Kriterien, wie die Verlässlichkeit von Matching mithilfe von statischen Modellen gemessen werden kann und welche Mindestwerte notwendig sind.

Wenn Identitäten nur probabilistisch gematcht werden, muss gemessen werden können, wie verlässlich das Matching ist und für welche Art der Anwendung welche Mindestverlässlichkeiten gelten sollen.

Die falsche Zuordnung von Daten zu Entitäten ist ebenso eine Fehlerquelle für Training und Anwendung von KI wie die Fehlerhaftigkeit von korrekt zugeordneten Daten.

08-11 Festlegung von Mechanismen, mit denen die Nutzer*innen die Verwendung der eigenen Identität überwachen können

Die Nutzer*innen sollten die Möglichkeit haben, zu erfahren, welche Daten unter ihrer Identität zusammengefasst wurden. Das ist schon im Rahmen der Datenschutz-Grundverordnung (DSGVO) verpflichtend, allerdings ist unklar, ob das alle Daten umfasst, die durch Fuzzy-Matching hinzugezogen wurden, etwa Zeitungsartikel.

Der Prozess der unscharfen Zuordnung ist kaum vollständig sicher zu überwachen. Eine Beteiligung der Betroffenen würde helfen, die Qualität der Zuordnung signifikant zu steigern. Das ist im Finanzsektor seit jeher eine große Herausforderung.

08-12 Leitfaden Usable Security

Maßnahmen in der Informationssicherheit dürfen nicht nur theoretisch zu mehr Sicherheit führen, sondern müssen konkret auch aus Nutzersicht praktisch handhabbar/umsetzbar sein. Das betrifft den Einsatz von (Sicherheits-)Technologien ebenso wie Sicherheitsanforderungen (Managementanforderungen), sodass diese tatsächlich wie vorgesehen zum Einsatz kommen und nicht ausgelassen, umgangen oder falsch eingesetzt werden.

Usable Security im weitesten Sinne wird erreicht durch die Schaffung von Transparenz, Nutzbarkeit, Barrierefreiheit und Zugänglichkeit sowie von Akzeptanz. Nutzungsfehler, die die Sicherheit kompromittieren könnten, werden so vermieden. Betrachtet werden muss der Aspekt der Usable Security aufseiten von Verbraucher*innen, wenn sie mit Systemen interagieren. Betrachtet werden muss aber auch die Nutzung von KI-Systemen durch Anwendende wie beispielsweise Finanzberater*innen. Auch hier führt Usable Security zu einer höheren Effizienz und Performanz der Systeme.

Wird nicht nur in technischen Sicherheitsanforderungen gedacht, sondern der Nutzende einbezogen, kann sich einerseits das Sicherheitsniveau erhöhen und andererseits generell die Motivation, das Vertrauen und vor allem die Akzeptanz der Nutzer*innen für den Einsatz der KI erhöhen.

08-13 Vorgehensweise für die Sicherheitsbetrachtung relevanter Stakeholder

Die Mehrzahl der Fragestellungen rund um das Management der Informationssicherheit in Unternehmen, z. B. ISO/IEC 27001 bzw. IT-Grundschutz, hat auch einen unternehmensinternen Scope. Die Betrachtung des Schutzbedarfs zur Verfügung gestellter Produkte und Dienste in der Anwendung relevanter Stakeholder, insbesondere von Verbraucher*innen, wird in den genannten ISMS nicht betrachtet. Die zu diskutierende Vorgehensweise soll aufgrund der hohen Individualität jeder einzusetzenden KI und der damit verbundenen, immer wieder neuen Beurteilung der Kritikalität gerade im sehr sensiblen Bereich der Finanzdienstleistungen einen unterstützenden Leitfaden bieten.

Bereits in der Ideenphase einer neuen KI sind die relevanten Stakeholder zu ermitteln, deren Schutzbedarf ist festzustellen und entsprechende Maßnahmen „KI-Security by Design“ sind zu entwickeln.

Beispiel: Dem Kunden bzw. der Kundin werden Hard- oder Softwareschnittstellen zu KI-Systemen zur Verfügung gestellt (z. B. Software: Apps/Marketing für Empfehlungen von Geldanlagen; Hardware: Sensorik z. B. im Fahrzeug für Telematiktarife).

Stakeholder eines Unternehmens sind in Bezug auf die Informationssicherheit von Maßnahmen des Unternehmens abhängig und müssen darauf vertrauen. Gerade im Bereich KI ist dieses Vertrauen essenziell, da KI in der Regel individuell in Entstehung und Kritikalität ist. Vertrauen kann teilweise über die Zertifizierung von Managementanforderungen wie einem ISMS realisiert werden, wobei Produkte und Dienste, die sich z. B. direkt an Endverbraucher*innen richten, davon nicht erfasst sind. Eine standardisierte Vorgehensweise würde den Blick für alle Anspruchsgruppen öffnen und mit einer transparenten Vorgehensweise mehr Vertrauen in KI schaffen und das Sicherheitsniveau insgesamt erhöhen.

Besonders im Finanzbereich sind neben Betreibern und Verbraucher*innen zahlreiche (behördliche) Stakeholder zu erkennen und durch die Einstufung von Finanzdienstleistungen als Kritische Infrastrukturen haben vertrauensbildende Maßnahmen eine besondere Relevanz.

08-14 Normen für die Validierung des Modells, um bewerten zu können, ob das KI-System für den Einsatz in der produktiven Umgebung hinreichend überprüft wurde

Regeln für die regelmäßige Re-Evaluierung von KI-Systemen aufstellen" "Hinreichende Generalisierbarkeit eines KI-Systems muss gewährleistet sein, um somit in zukünftigen Situationen zuverlässig entscheiden zu können. KI-Systeme neigen zu Over- und Underfitting bei nicht adäquater Entwicklung; daher ist es von hoher Relevanz, das Modell hinreichend zu validieren, um einen zuverlässigen Betrieb in der Produktion sicherstellen zu können. So muss das Modell entsprechend durch adäquate Methoden (u. a. Back-Testing, Stresstests, Adversarial Attacks) geprüft werden mit dem Ziel einer harmonisierten Richtlinie für die Überprüfung der KI-Systeme. Es muss gewährleistet sein, dass ML-Methoden, die Gegenstand aufsichtlicher Prüfungen und Erlaubnisverfahren sind (interne Modelle zur Berechnung der regulatorischen Eigenmittelanforderungen (Säule 1) oder im Risikomanagement in Säule 2), hinreichend validiert sind. Um eine entsprechende Qualität sicherstellen zu können, müssen adäquate Normen definiert sein, da existierende regulatorische Anforderungen derzeit noch nicht die besonderen und komplexen Eigenschaften, die KI- und Machine-Learning-Technologien künftig enthalten, berücksichtigen.

Die besondere Relevanz für den Finanzsektor ergibt sich daraus, dass sich die Modelle häufig auf menschliches Verhalten sowie veränderliche Umgebungen, z. B. Marktumfelder, beziehen und Stressperioden mit abdecken. Entsprechend robust müssen die Prognosen sein.

UND

Über die Laufzeit von KI-Systemen soll eine regelmäßige und niedrigschwellige Re-Evaluierung sicherstellen, dass Kumulationen von Fehlern frühzeitig erkannt werden. Hierfür kann eine Normung Rahmenbedingungen für Prozesse und Intervalle geben. Diese integrieren sich beispielsweise in die vorhandenen Prozesse des Qualitätsmanagements. Über die Laufzeit eines Produktivsystems unterliegen die Eingabewerte einem zeitlichen Wandel, hierdurch kann es zu Fehlern kommen, die in ihrer Summe weitreichende Anpassungen nötig machen. Mittels einer regelmäßigen Re-Evaluierung kann sichergestellt werden, dass angemessen auf diese Fehler reagiert werden kann, bevor die Systemleistung merklich beeinträchtigt wird.

Die besondere Relevanz für den Finanzsektor egibt sich daraus, dass sich die Modelle häufig auf menschliches Verhalten sowie veränderliche Umgebungen, zum Beispiel Marktumfelder beziehen und Stressperioden mit abdecken. Entsprechend robust müssen die Prognosen sein.

08-15 Normen für die Transparenz zur Fehlerkorrelation des Systems

Ein KI-System soll in standardisierter Weise transparent machen, wie die Korrelationsstruktur der statistischen Unsicherheiten aussieht. Statistische Unsicherheiten der Ausgaben eines KI-Systems sind nicht notwendigerweise unabhängig. Für das Risikomanagement möglicher Fehler des Systems ist eine Kenntnis der Abhängigkeitsstruktur entscheidend. Zudem muss definiert werden, inwiefern ein Input unter Unsicherheit erstellt wurde (durch ein vorgeschaltetes Modell oder einen Datensatz).

08-16 Definition hinreichender Maße für Transparenz, damit der Entwickler weiß, welche zusätzlichen Informationen bereitgestellt werden müssen, um die entsprechende Architektur des KI-Systems zu konstruieren

Die Entscheidung eines KI-Systems muss hinreichend nachvollziehbar sein, um die Entscheidungsfindung zu verstehen. Außerdem sollten Transparenzanforderungen in Normen aufgenommen werden, etwa indem Auftragnehmende verpflichtet werden, die Überprüfung durch Dritte sowie die Schaffung von Nachvollziehbarkeit aktiv zu unterstützen. Es sollte u. a. im Fokus stehen, zu verstehen, was genau Einfluss auf die resultierende Entscheidung hat, wie z. B., um einem Darlehenbewerber ggf. erklären zu können, aus welchem Grund dieser kein Darlehen gewährt bekommt.

Die besondere Relevanz für den Finanzsektor ergibt sich daraus, dass sich die Modelle häufig auf menschliches Verhalten sowie veränderliche Umgebungen, z. B. Marktumfelder, beziehen und Stressperioden mit abdecken. Entsprechend robust müssen die Prognosen sein.

08-17 Normung von Dokumentationspflichten zum Ursprungskontext von Modellen und (Trainings-)Daten

Der Ursprungskontext von (Trainings-)Daten sowie fertigen Modellen muss in jedem Schritt der Verwendung verfügbar sein, um eine Überprüfbarkeit zu gewährleisten.

Werden Ergebnisse einzelner Modelle rein anhand ihrer Klassifizierung genutzt, kann dies zu unerwartetem Systemverhalten führen. Aufgrund der Prozesse im Maschinellen Lernen können unwichtig erscheinende Randdaten zu unerwünschten Korrelationseffekten führen. Für die Verwendung anderer Modellausgaben sollte der ursprüngliche Kontext bekannt sein und berücksichtigt werden. Dies schließt ein: Modellentscheidungen und Abwägungen, Ursprung und Kontext der Trainings-, Validierungs- und Testdaten, Ursprung und Kontext der Echtzeiteingabedaten. Normung kann hier ansetzen und sicherstellen, dass keine relevanten Informationen während der Übernahme unbekannt bleiben.

08-18 Normen für die Transparenz zur Konfidenz und Modellrisiken von Einzelentscheidungen

Im Gegensatz zu Entscheidungen mit vorgegebenen Algorithmen gehört die Unsicherheit über die Richtigkeit der Entscheidungen zur Ausgabe des ML-basierten KI-Systems. Diese sollten daher in genormter Weise transparent gemacht werden, z. B. durch die Angabe entsprechender Wahrscheinlichkeiten der möglichen Entscheidungen.

Da im Risikomanagement oft mehrere Modelle verkettet werden, diese aber nichtlinear gekoppelt werden, ist die Kenntnis über die Fehlerverteilungen der Einzelsysteme für die Abschätzung der Fehlerverteilung des Gesamtsystems entscheidend. Das ist für Finanzdienstleister als native Risikomanager von grundlegender Bedeutung.

09-01 Interoperabilität von Terminologie, Semantik, Taxonomie und Daten

Materialwissenschaft und -wirtschaft sind mit grundlegenden Fragestellungen zur Erhöhung der Ressourcen- und Energieeffizienz konfrontiert. Dies betrifft insbesondere das Fachgebiet Tribologie, da Reibungs- und Verschleißoptimierung unmittelbare Auswirkungen auf den Material- und Energieaufwand haben. Durch viele involvierte Domänen entstehen in Charakterisierungs- und Modellierungsmethoden Inkonsistenzen in Begrifflichkeiten und Abhängigkeiten. Die FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable) müssen hierbei die Handlungsgrundlage bilden. Terminologien, Semantiken und Taxonomien domänenübergreifend zu erstellen bzw. zu harmonisieren, kann letztlich nur durch die Einbeziehung von Stakeholdern erfolgen und erfordert konsensorientierten Austausch. Weiterhin ist für die Bewertung der Zuverlässigkeit von KI-Entscheidungen die Integration geeigneter Metadaten (z. B. Sensortyp und Messungenauigkeit für Sensordaten) in die Datenmodelle zu erwägen. Folglich sollte dieser Prozess einem regelmäßigen Review unterliegen und normativ begleitet werden.

09-02 Schemata und Mapping für GIS-/BIM-Integration

Zur Bestimmung der Umweltwirkungen bzw. des Life Cycle Assessments (LCA) im Bauwesen entsteht auf Gebäude- und insbesondere auf Quartiersebene ein hoher Datenbedarf, der effizient bedient werden muss. Geografische Informationssysteme (GIS) und Building Information Modelling (BIM) weisen als geläufige Modellierungsmethoden Überschneidungen auf. Insbesondere GIS-basierte Gebäudemodelle in Level of Detail (LoD) 3 und 4 weisen qualitativ ähnliche Informationen auf wie detaillierte, BIM-basierte Gebäudemodelle. Eine Nutzung von Daten aus beiden Domänen kann eine signifikante Hebelwirkung in umweltbezogenen Anwendungen der Künstlichen Intelligenz und des Maschinellen Lernens entfalten. Hierzu bedarf es jedoch eines gemeinsamen Datenstandards in Form von Modellübersetzungen, Mappings von Datenformaten und Datenbankschemata. Ein derart gestalteter Datenstandard sollte kontinuierlich begleitet und infolge von Updates aus beiden Domänen (insbesondere OGC (Open Geospatial Consortium) für GIS und buildingSMART für BIM) regelmäßige Aktualisierungen erhalten.

09-03 Kohärenz und Einheitlichkeit der Datengrundlagen und KI-Anwendungen für nachhaltigen Konsum

Die einheitliche, branchenübergreifende bzw. -unabhängige Angabe von Umweltwirkungen und Kreislauffähigkeit von Gütern und Dienstleistungen erfordert ein gemeinsames Format zur Kommunikation. Dies beinhaltet einen gemeinsamen Datenstandard für die breit angelegte Bestimmung von Umweltwirkungen. Dieser Standard und integrative Datenformate vereinfachen den Aufbau KI-basierter Empfehlungssysteme für nachhaltigen Konsum. Es bedarf konkret einer Normung für Produktdatenbanken, zugehöriger Datenbankschemata und Datenmappings zur Sicherstellung der Interoperabilität. Weiterhin braucht es für ein lernendes Feedbacksystem bzw. die kontinuierliche Optimierung der Algorithmen eine datenschutzgerechte Formulierung der Nutzungsmöglichkeiten von Daten über das persönliche Konsumverhalten. Die dargelegten Aspekte betreffen eine Bandbreite an Stakeholdern aus Wirtschaft und Wissenschaft, die in die normativen Prozesse einbezogen werden sollten.

09-05 Eingabeformate für lernende Systeme

Im Kontext domänenspezifischer Prozesse fällt immer wieder auf, dass Wissen mühevoll für die KI aufbereitet und umformatiert werden muss. Formate müssen als Standard etabliert werden, um eine breite Basis von Wissen so zur Verfügung zu stellen, dass sie in zahlreichen Anwendungen genutzt werden kann und somit „wachsendes“ Wissen etabliert wird. Eine vereinheitlichte Semantik als auch Syntax ermöglichen, ähnlich wie die Vereinbarung auf eine Geschäftssprache, schnellen Zugang zu dem dokumentierten Wissen sowie die bessere Wiederverwendung.

09-06 Übersicht und Referenzmodellbildung

Die Vereinheitlichung und Abstimmung von Inhalten in Normungsgremien bezüglich Definitionen, Taxonomien führt zu einer gemeinsamen Domänensemantik. Dazu sind für bestimmte Themenfelder und Inhalte führende Gremien zu definieren. Die Erstellung einer Normungslandkarte ermöglicht einen einfachen und schnellen Zugang zu den komplexen Abhängigkeiten der KI im Kontext der einzelnen führenden Gremien und kann daher die Verwendung von Normen unterstützen, indem die Ansprechpartner*innen und Wissensträger*innen besser zugänglich werden.

09-07 Dimensionierung und Begriffsbildung von I4.0 Referenzarchitekturmodellen (RAM)

Die RAMs für Smart Manufacturing (SM), Smart Grid (SG) und andere technische Infrastrukturen sind i. d. R. kubische Modelle, die vergleichbare Kategorien wie Kommunikationsschichten, Value-Stream-Zustände und Nutzungs- oder Produktionshierarchien verwenden. Die RAM-Begriffe und Konzepte sind jedoch aufgrund der disjunkten Anwendungsdomänen SM und SG nicht alle aufeinander abgestimmt. Es ergibt sich daraus ein Bedarf, die verwendeten RAM-Begriffe und Terminologien aus den Anwendungsdomänen semantisch, funktional, sicherheitspolitisch und ethisch miteinander zu vergleichen und abzustimmen.

09-10 Berechnungsverfahren zur Ermittlung des CO2-Faktors aus dem Strommix

Zur Ermittlung der CO2-Emissionen aus dem Stromverbrauch zu einem gegebenen Zeitpunkt ist eine Zuordnung von Emissionen zu den erzeugten kWh erforderlich. Aktuell genormte Verfahren zur Allokation dieser Emissionen sehen eine statische Berechnung anhand eines festgelegten Faktors vor, der ggf. mit neuen Ausfertigungen der Norm aktualisiert wird. Diese Methodik trägt der Volatilität des Strommixes nicht hinreichend Rechnung, da witterungsbedingte Schwankungen in der Erzeugung aus erneuerbaren Quellen nicht berücksichtigt werden können. Es bedarf also eines agilen Berechnungsverfahrens mit höherer zeitlicher und ggf. geografischer Auflösung, um die Umweltwirkungen des Stromverbrauchs präziser zu ermitteln.

Content

Space Tools

Normungs- und Standardisierungsbedarfe der Normungsroadmap KI (A2)

01-01 Sektorübergreifende Normung von Begriffen

01-02 Verwendbarkeit der Normenreihe ISO/IEC 5259 [39] für sektorspezifisches Datenqualitätsmanagement

01-04 Prüfstandard für KI-Systeme in Anlehnung an die CC

01-05 Anforderungen an zertifizierende Stellen

01-07 Schnittstellen des Entwicklungsprozesses von KI gestalten

01-08 Gestaltung der Inhalte einer Quality Backward Chain

01-09 Möglichkeiten zur Reevaluierung vorsehen

01-10 Normung eines Konzepts für Privacy Ethical Design

01-11 Zweckbindung von Daten gestalten

01-13 Verbesserter und niederschwelligerer Überblick über das Zusammenspiel zwischen Kritikalitätsstufen und zugehörigen Anforderungen (speziell bei KI-Systemen mit geringem Risiko)

01-15 Standardisierung von Language Technology und Natural Language Processing APIs und Datenstrukturen

01-16 Standardisierung der Messung von Performanz, Korrektheit, Präzision und Plausibilität großer Sprachmodelle sowie der Datenqualität

01-17 Wissensgraphen und Ontologien in große Sprachmodelle

01-18 Test- und Auditing-Prozesse für KI-Sprachanwendungen

01-21 Bewertungsmetriken und Methoden für Bilddatensätze und Erhebungs-/Synthetisierungsverfahren und bildauswertende ML-Verfahren entwickeln

01-22 Metriken zum Test bildverarbeitender KI-Systeme standardisieren

01-23 Verfahren zur cybersicheren Authentifizierung auf Basis von Bilddaten

01-26 Umwandlung von DIN SPEC 13266:2020 [98] in eine Norm

02-05 Abstrakte Zerlegung der KI-Komponente in Daten und Prozesse

02-06 Existierende KI-Angriffe und Risiken mit existierenden zertifizierbaren IT-Sicherheitszielen abgleichen

02-07 Standardisierung von KI-Produkt- und Prozessprüfverfahren für Security und Privacy

02-09 Entwicklung von Metriken und Controls gemäß den Standardisierungsanforderungen des geplanten EU AI Act

03-07 Entwicklung von Qualifikationskriterien für Prüfer und Zertifizierter zu Cybersecurity und Privacy für KI

03-09 Definition von Kontrollpunkten

04-01 Berücksichtigung der Dynamik von KI-Systemen bei der Gestaltung von Aufgaben-, Interaktions- und Informationsschnittstellen

04-02 Berücksichtigung soziotechnischer Aspekte bei der Gestaltung von KI-Systemen

04-03 Erfüllung des Standardisation Requests zum EU AI Act, Aspekt „Transparenz“

04-04 Erfüllung des Standardisation Requests zum EU AI Act, Aspekt „Menschliche Aufsicht“

05-01 Erstellung eines Referenzmodells für KI-Engineering

05-02 Liste und Definition von nicht-funktionalen Merkmalen (Qualitätskriterien) für KI-basierte Systeme, bezogen auf die Entwicklung und den Betrieb

05-03 Einheitliche Vorgehensweise für die Bewertung von KI-basierten Systemen gemäß definierten Kriterien

05-04 Vorgehensmodell für das Engineering und den Betrieb von KI-basierten Systemen

05-05 Aufbau einer standardisierten Metadatenbeschreibung von KI-Methoden

06 Auszeichnungen von Datenstrukturen und Modellen zu Verwendung, Erhalt und Rekonstruktion ihrer ursprünglichen Intentionen

05-07 Validierbare Transformationen von Strukturen und Modellen

05-08 Identifikation und Behebung struktureller Probleme in den Grundbausteinen für kompatiblen Daten-/Modellaustausch und KI

05-09 Definition von Metriken und Methoden zur Bewertung der Datenqualität u. a. in ML-Datenmodellen

05-10 Skizzierung einer spezifischen I4.0-Methodik für den Entwurf von I4.0-Systemen mit KI-Komponenten

05-11 Standardisierung und Katalogisierung von allen nach dem Schema Ding-Ontologie/Symbol-Semantik kategorisierten Artefakten und ihre Sammlung in stakeholderspezifischen Katalogen für Designer, Entwickler, Operateure etc.

05-12 Formalisierung von Metriken, Evaluationen, Testing, Verifikation, Modellbildung mit Mitteln einer Common Logic

05-13 Prüf- und Evaluierungsmethoden für Assets mit eingebauten KI-Komponenten zur Abschätzung des Einflusses der KI auf die System- oder Komponentenqualität

05-14 Beschaffung von Argumenten und Metadaten, die zur Belegung der Vertrauenswürdigkeit der Maßnahmen beteiligter Stakeholder verwendet werden können

05-15 Aufbau und kontinuierliche Aktualisierung einer (semantischen) Normungslandkarte mit eingebauten Hilfen zur Nutzung der Landkarte

05-19 Standardisierung der Aspekte des Ökosystems „Mensch & KI“

05-20 Realisierung und Umsetzung des Digital Service Act (DSA) im Ökosystem „Mensch & KI“ in verschiedenen vertikalen Anwendungen und Datenräumen

05-22 Neue Normungsprojekte für „formale und semiformale“ Standards zur semantischen Konkretisierung technischer Themen und dem Verhalten von Systemen, die im Rahmen der technischen Normung zu leisten sind

06-04 Kontinuierliche (Weiter-) Entwicklung und Validierung im Betrieb

06-05 Analyse-, Simulations- und Testmethoden sowie Testinfrastruktur

07-02 Gestaltung geeigneter Metriken für unterschiedliche Arten KI-basierter Medizinprodukte

07-04 Autonomiegrade bei KI-basierten Systemen – verschiedene Stufen von Human-in-the-Loop bis hin zu Closed-Loop-Modellen

07-06 Anwendung von Assurance Cases zur Erbringung von Sicherheitsnachweisen bei KI-basierten Anwendungen im Bereich der Medizin

08-01 Definition nachprüfbarer Antidiskriminierungsmetriken zum Nachweis der Diskriminierungsfreiheit einer KI-Lösung

08-02 Normung der für Nichtdiskriminierung relevanten Merkmale und des Umgangs damit

08-03 Normung der Berücksichtigung von Nichtdiskriminierungsaspekten bei der Erstellung einer KI-Lösung zum Nachweis der Diskriminierungsfreiheit

08-04 Definition des Begriffs Fairness durch nachprüfbare Metriken

08-05 Regeln für den Nachweis der Abdeckung aller relevanter Faktoren bei Gruppenbetrachtungen

08-07 Rahmenbedingungen zum Umgang mit Trainingsdaten für KI-Modelle

08-08 KI-spezifische Angriffsszenarien und Schutzmaßnahmen

08-09 Festlegung von Kriterien, die für eine automatisches Entity-Matching ausreichend sind

08-10 Festlegung von Kriterien, wie die Verlässlichkeit von Matching mithilfe von statischen Modellen gemessen werden kann und welche Mindestwerte notwendig sind.

08-11 Festlegung von Mechanismen, mit denen die Nutzer*innen die Verwendung der eigenen Identität überwachen können

08-12 Leitfaden Usable Security

08-13 Vorgehensweise für die Sicherheitsbetrachtung relevanter Stakeholder

08-14 Normen für die Validierung des Modells, um bewerten zu können, ob das KI-System für den Einsatz in der produktiven Umgebung hinreichend überprüft wurde

08-15 Normen für die Transparenz zur Fehlerkorrelation des Systems

08-16 Definition hinreichender Maße für Transparenz, damit der Entwickler weiß, welche zusätzlichen Informationen bereitgestellt werden müssen, um die entsprechende Architektur des KI-Systems zu konstruieren

08-17 Normung von Dokumentationspflichten zum Ursprungskontext von Modellen und (Trainings-)Daten

08-18 Normen für die Transparenz zur Konfidenz und Modellrisiken von Einzelentscheidungen

09-01 Interoperabilität von Terminologie, Semantik, Taxonomie und Daten

09-02 Schemata und Mapping für GIS-/BIM-Integration

09-03 Kohärenz und Einheitlichkeit der Datengrundlagen und KI-Anwendungen für nachhaltigen Konsum

09-05 Eingabeformate für lernende Systeme

09-06 Übersicht und Referenzmodellbildung

09-07 Dimensionierung und Begriffsbildung von I4.0 Referenzarchitekturmodellen (RAM)

09-10 Berechnungsverfahren zur Ermittlung des CO2-Faktors aus dem Strommix