Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.


Table of Contents
maxLevel2
minLevel2
indent0
stylenone
printablefalse

Expand
titleSchwerpunkt 1: Grundlagen

01-01  Sektorübergreifende Normung von Begriffen    

Gerade durch die querschnittliche Bedeutung von „KI“ als Technologie führen die benannten Bedeutungsunterschiede in interdisziplinären Diskussionen oft zu erheblichen Missverständnissen. Das erzeugt Reibungsverluste auch ohne inhaltlichen Dissens und entsprechend ohne inhaltliche Fortschritte. Da die Operationalisierung von KI und KI-Diskussionen vermehrt sektor- und domänenübergreifende Maßnahmen erfordert, wird erwartet, dass gemeinsame Begrifflichkeiten für diese ein notwendiges Fundament darstellen.

Wie im Glossar deutlich wird, gibt es bei verbreiteten Begriffen (beispielsweise „bias“, „safety“) mitunter erhebliche Abweichungen in Standards und Konventionen unterschiedlicher Domänen oder Sektoren. Es wird vorgeschlagen, sektorübergreifend vereinheitlichte Definitionen zu schaffen, um eine übergreifende Terminologie gerade in KI-Debatten sicherzustellen.

01-02  Verwendbarkeit der Normenreihe ISO/IEC 5259 [39] für sektorspezifisches Datenqualitätsmanagement          

Die Verwendung der ISO/IEC-5259-Reihe [39] als gemeinsamer Ausgangspunkt für vertikale Standardisierungsaktivitäten im Bereich Datenqualität erlaubt es, auf ein gemeinsames Gerüst zurückzugreifen und Terminologie, Konzepte und Prozesse für Datenqualitätsmanagement sektorübergreifend zu beschreiben.

Durch die Initiierung der Normenreihe der ISO/IEC-5259-Reihe [39] sind die Themen Datenqualität und Datenmanagement in der internationalen Standardisierung zumindest allgemein adressiert. Dennoch ist zu erwarten, dass für spezifische Sektoren und Anwendungen verschärfte und ggf. andere als die oben genannten Qualitätskriterien relevant werden. Auch Qualitätsmanagementprozesse müssen sektorspezifisch implementiert und ggf. angereichert werden. Somit wird empfohlen, in der vertikalen Standardisierung zum Datenqualitätsmanagement zu prüfen, inwieweit die ISO/IEC-5259-Reihe [39] als allgemeine Referenz herangezogen werden kann und inwieweit sektorspezifische Adaptionen notwendig werden.

01-04  Prüfstandard für KI-Systeme in Anlehnung an die CC    

Da die CC ein weltweit akzeptierter Ansatz zur Sicherheitsevaluation von IT-Systemen darstellt, der von Prüflaboren und Zertifizierungsstellen angewendet wird, wird so Mehraufwand bei der Produktzertifizierung von KI-Systemen vermieden bzw. minimiert, da auf bewährte Verfahrensweisen zurückgegriffen werden kann.

Zur Prüfung und Evaluation von KI-Systemen soll ein horizontaler Prüfstandard entwickelt werden, der sich in Terminologie, Methodik und Strukturvorgaben an die Dokumente zu den Common Criteria anlehnt.

01-05  Anforderungen an zertifizierende Stellen

Erforderliche Kompetenzen von Auditoren bzw. der Zeitaufwand für ein Audit gemäß ISO/IEC 42001 [27] unterscheiden sich ggf. von Audit-Anforderungen in anderen Bereichen.

Formulierung von Anforderungen an die Zertifizierung gemäß ISO/IEC 42001 [27], die durch zertifizierende Stellen erfüllt werden müssen. Ein Projektvorschlag von deutscher Seite zu diesem Thema ist in Vorbereitung; die Projektdurchführung muss jedoch von deutscher Seite maßgeblich unterstützt werden.

01-07  Schnittstellen des Entwicklungsprozesses von KI gestalten     

Standardisierte Schnittstellen und ein modulares Modell typischer KI-Bausteine kann die austauschbare Entwicklung und Einzelbewertung nach standardisierten Kriterien ermöglichen und damit zur übergreifenden Nutzbarkeit, zur Übertragbarkeit von Zulassungen und zur Transparenz beitragen. Entsprechende Methoden zur Einsichtnahme in Modelle und Datensätze fordert auch der Entwurf zum AI Act [4]. Darauf aufbauend können standardisierte Vorgehensmodelle geschaffen werden (vgl. beispielsweise [93]), die die Bereitstellung entsprechender Schnittstellen als reguläres Artefakt der Entwicklung integrieren und Zusatzaufwände minimieren. Die dadurch entstehende Vergleichbarkeit des Schnittstellenmanagements von unterschiedlichen Institutionen schafft Orientierung und zahlt so auf den Wert Selbstbestimmung i. S. v. selbstbestimmter Nutzung ein.

Standardisierte Schnittstellen in KI-Systemen sollen bereits in der Entwicklungsphase externen Prüfern Einblick etwa in Trainingsdatensätze und Modelle geben und KI-Subsysteme, wo möglich, auf gängige einheitliche Funktionsbeschreibungen zusammenführen, um Entwicklung, Prüfung und Einsatz zu vereinfachen, insbesondere im Hinblick auf Ziele der Ethik und Vertrauenswürdigkeit (beispielsweise hinsichtlich Nachvollziehbarkeit, Authentizität der Daten, Transparenz). Es sollten standardisierte Rollenbeschreibungen von KI-Komponenten und von Akteur*innen definiert werden. Ferner soll eine standardisierte Beschreibung des Zusammenspiels der einzelnen Komponenten untereinander sowie im Gesamtkontext (inklusive Nicht-KI-Systemteile und Systemumgebung) geschaffen werden. Es ist zu definieren, welcher Abstraktionsgrad dabei praktisch ratsam ist – beispielsweise, um mit Rücksicht auf Datenschutz, Datensparsamkeit und Datenumfang nicht alle Bestandteile eines Datensatzes offenlegen zu müssen, sondern lediglich abstrahierte Merkmale.

01-08  Gestaltung der Inhalte einer Quality Backward Chain   

Um Systeme künstlicher Intelligenz auch in ihrer ethischen Dimension während ihres Einsatzes evaluieren und ggf. Entscheidungsgrundlagen modellieren zu können, ist der Einsatz einer Quality Backward Chain zu empfehlen. Diese gewinnt im Rahmen des Einsatzes Felddaten, welche ein Urteil über ethische Entscheidungen des Systems ermöglichen. Grundlegende Korrekturen des Systems sind hierbei nicht vorgesehen, vielmehr soll verhindert werden, dass auf Schäden durch den Einsatz nicht (angemessen) reagiert werden kann. Die Quality Backward Chain liefert Daten für die nachträgliche Beurteilung möglicher Fehlentscheide und hilft dabei sowohl dem Anbieter als auch dem Anwendenden.

Verpflichtende Inhalte im Rahmen der Felddatengewinnung im Sinne einer Quality Backward Chain, die neben technischen auch ethische Aspekte systematisch abdecken muss, bedürfen einer Normung sowie einheitlicher Datenformate, um künftige Meldepflichten zu sichern. Damit soll gewährleistet werden, dass die Option, Meldungen zu machen, möglichst niederschwellig und für alle Benutzergruppen möglichst gut erreichbar ist. Damit soll hinsichtlich der Wertebene eine demokratische Nutzung sichergestellt sein. Ebenso ist dies hinsichtlich Interoperabilität erforderlich, um eine freie Nutzung von Produkten, Dienstleistungen und Systemen abseits von Monopolen zu ermöglichen und User*innen auch in dieser Hinsicht in ihrer souveränen Entscheidung zu unterstützen.

01-09  Möglichkeiten zur Reevaluierung vorsehen        

Die ethische Reevaluierung von KI-Systemen findet anhand ihrer Kernwerte statt. Diese Kernwerte gilt es vorher im Entwicklungsprozess durch das Unternehmen im Rahmen eines Stakeholderprozesses zu identifizieren. Anhand der erfolgten Abwägung von Werten stuft das Unternehmen intern Ergebnisse bzw. Entscheidungen des KI-Systems in seiner ethischen Dimension im Betrieb ein, aber auch schon im Rahmen des Entwicklungsprozesses. Felddaten aus einer Quality Backward Chain können diese Bewertung unterstützen. In die Prüfung sind die relevanten Stakeholder einzubinden. Sie kann durch ein Expert*innengremium, z. B. ein Expert Review Board, oder anderes geschultes Personal vollzogen werden. Die Prüfung schließt mit ein, dass auch die Unternehmensprozesse in Hinblick auf die Gewährleistung ethischer Prinzipien betrachtet und ggf. korrigiert werden. Sollte ein Verstoß gegen o. g. Kernwerte entdeckt werden, so ist eine größere Prüfung der Prozesse und Datengrundlage nötig. Ebenso wäre eine Meldepflicht analog zu Datenschutzverstößen denkbar. Die Reevaluierung findet bedarfsgebunden oder in festen Abständen statt, beispielsweise alle drei Jahre. Kernelemente dieses Prozesses sind bereits in der ISO/IEC 38507:2022 [26] adressiert, wobei zum Großteil die Kernziele des Unternehmens in den Vordergrund gestellt werden und ethische Aspekte eher als Nebenanforderung auftreten. Dabei ist zudem nicht herausgearbeitet, welche konkreten Inhalte in Bezug auf die ethische Bewertung berücksichtigt und in welchem Umfang diese betrachtet werden sollen.

Dokumentationspflichten und Zeitabstände für verpflichtende Reevaluierungen sind zu normen.

01-10  Normung eines Konzepts für Privacy Ethical Design      

Privacy Ethical Design unterlegt alle Systeme mit dem Grundsatz der Privatsphäre des Einzelnen. Dabei geht es über das Konzept der Privatsphäre an sich hinaus und weist ihr eine klare ethische Dimension zu, bei der nicht nur direkte Einflüsse, sondern auch indirekte Einflüsse auf die Bedarfe des Anwendenden berücksichtigt werden. Damit wird ein Grundvertrauen in neue Technologien gefördert und dadurch die Marktakzeptanz erhöht. Auch Interoperabilität zwischen verschiedenen Anbietern, wie beispielsweise SSO, kann durch Privacy Ethical Design mehr Anwender*innen ansprechen. Dies kann unter Berücksichtigung des aktuell im ISO/IEC JTC 1/SC 42 initiierten Projekts zu einen MSS für KI (siehe Kapitel 4.1.3, Bedarf 1 „Unterstützung der internationalen Standardisierungsarbeiten zu einem MSS für KI“) erfolgen, indem die Erklärbarkeit von KI-Systemen in den Anforderungskatalog des entstehenden Dokuments aufgenommen wird, sowie durch eine Ausweitung des Risikobegriffs auf ethische Risiken, wie sie bereits im Projekt ISO/IEC 23894:2022 [25] Risk Management vorgenommen wurde.

Um effektives Privacy Ethical Design zu fördern, gilt es, ethische Risiken gezielt und systematisch zu beleuchten. Im Rahmen eines Risikomanagementprozesses sollen sie identifiziert und analysiert werden, um sie durch gezielte Maßnahmen zu mitigieren. Dies kann beispielsweise in Form und Umfang einer möglichen Dokumentationspflicht gestaltet werden – zur Förderung von Transparenz und Verhinderung reiner Scheinmaßnahmen. Ein solches Vorgehen zahlt u. a. auf den Wert der Nachvollziehbarkeit ein. Ein weiteres Beispiel wäre die Verbesserung der Benutzerschnittstelle im Hinblick auf Privacy-Einstellungen, um für die Beteiligten möglichst gute Möglichkeiten zu schaffen, Privacy effektiv und intuitiv umzusetzen.

01-11  Zweckbindung von Daten gestalten         

Um ein für alle Parteien transparentes Agieren im Interesse vertrauenswürdiger KI-Entwicklung zu ermöglichen, gilt es, die Zweckbindung von Daten weiter auszugestalten. Nach Art. 5 Datenschutz-Grundverordnung (DSGVO) dürfen personenbezogene Daten nur für „festgelegte, eindeutige und legitime Zwecke erhoben werden“ sowie „nicht in einer mit diesen Zwecken nicht zu vereinbarenden Weise weiterverarbeitet werden“. Ausnahmen gelten hierbei nach Art. 89 DSGVO für „im öffentlichen Interesse liegende Archivzwecke, für wissenschaftliche oder historische Forschungszwecke oder für statistische Zwecke“. Hier kann Normung ansetzen und im Rahmen der gesetzlichen Leitplanken der DSGVO eine innovative Datennutzung fördern, durch die Unternehmen in der Lage sind, neue Produkte auf Basis ihrer Stammdaten zu entwickeln, ohne die Rechte der Verbraucher*innen zu verletzen. Eine gute Option bietet sich, zu diesem Punkt den Dialog zu einschlägigen Gesetzesvorschlägen der Europäischen Kommission (DSA, DGA) zu pflegen, um die Regulierungsabsichten in dieser Hinsicht stimmig fortzuführen. Hierbei soll über gemeinsamen Austausch bestenfalls auch die Expertise der Aufsichtsbehörden einbezogen werden. Gleichzeitig sollen die Verbraucher*innen jederzeit in der Lage sein, eine angemessene Übersicht zu erhalten, zu welchen Zwecken ihre Daten verwendet werden. Normung kann hierbei Unternehmen und Institutionen unterstützen, ein erforderliches Consent Management zu entwickeln und zu integrieren.

Für eine sichere und innovative Zweckbindung von Daten kann Normung einheitliche Dokumentationen und Einverständniserklärungen fördern, welche Anwender*innen und Anbieter*innen schnell und unkompliziert Einsicht in die möglichen Verwendungszwecke bieten.

01-13  Verbesserter und niederschwelligerer Überblick über das Zusammenspiel zwischen Kritikalitätsstufen und zugehörigen Anforderungen (speziell bei KI-Systemen mit geringem Risiko)

Um KI-Systeme bezüglich ihrer Kritikalität schnell einordnen zu können und die damit verbundenen Anforderungen gut erfassen zu können, wären für Herstellende klar strukturierte Vorgaben hilfreich. Das gilt insbesondere für die Frage, welche Anforderungen KI-Anwendungen mit niedrigem Risiko erfüllen sollten, um die gesetzlichen Vorgaben zu erfüllen, aber auch um ein hohes Maß an Vertrauenswürdigkeit zu erreichen. Der geplante AI Act gibt zwar für den Bereich der EU eine Einordnung in bestimmte Klassen, indem er z. B. verbotene Bereiche oder auch Hochrisikosysteme definiert, wobei die Einordnung primär gemäß dem Anwendungsgebiet und weniger nach dem für das jeweilige konkrete Produkt entstehende Risiko erfolgt. Gerade für den Bereich der weniger kritischen Systeme verbleiben jedoch wenig konkrete Anforderungen, sodass die Herstellenden in diesem Fall kein klares Bild bekommen, welche Anforderungen umzusetzen sind. Dieser Effekt wird dadurch verstärkt, dass es inzwischen vielfältige andere Gesetze auf EU-Ebene gibt, wie u. a. die Datenschutz-Grundverordnung, der Digital Service Act, der geplante Data Act oder auch die Grundrechtecharta der EU, die weitere wichtige Anforderungen liefern, die bei der Entwicklung von KI-basierten Systemen eine zentrale Rolle spielen. Auch auf Seite der Benutzer*innen wird es damit unübersichtlich, wie sie die Systeme einzuordnen haben, was ein vertrauenswürdiges System ausmacht und welche Anforderungen diese in welcher Weise erfüllen.

Eine bessere Transparenz und Übersichtlichkeit in Bezug auf die unterschiedlichen Stufen der Kritikalität (auch jenseits der Einordnung im geplanten AI Act [4] und der damit verbundenen Anforderungen) soll geschaffen und in entsprechenden Normen verankert werden. Es soll auf niederschwellige Weise vermittelt werden, was vertrauenswürdige KI ausmacht, wie die Systeme einzuordnen sind und welche Anforderungen aus welchen Gesetzen umzusetzen sind.

Konkret beinhaltet das die folgenden Punkte:

  • Niederschwellige und für Hersteller*innen und Benutzer*innen transparente Zuordnung von KI-Anwendungen in Hinblick auf ihre Kritikalität
  • Für Hersteller*innen: gezielte Klärung, welche Anforderungen aus welcher Gesetzgebung für welche Anwendungen bzw. Kritikalitätsstufen umzusetzen sind, um gesetzeskonforme und vertrauenswürdige KI-Systeme entwickeln zu können. Durch geeignete Normen/Werkzeuge soll ein gut erfassbarer Überblick geschaffen werden, der die Zusammenhänge zwischen den Anforderungen, den zugehörigen Gesetzen sowie den für den jeweiligen Use Case erforderlichen Schritten aufschlüsselt.
  • Für Benutzer*innen: schneller und niederschwelliger Einblick in die unterschiedlichen Kritikalitätsstufen und deren Anforderungen auf einem verständlichen Niveau, um die Vertrauenswürdigkeit von KI-Systemen in geeigneter Weise erfassbar zu machen."

01-15  Standardisierung von Language Technology und Natural Language Processing APIs und Datenstrukturen

Die APIs von sprachtechnologischen Cloud-Services sind nicht standardisiert und somit jeweils unterschiedlich, was Vergleich, Testen, Benchmarken und Austausch unterschiedlicher APIs erschwert bzw. unmöglich macht, d. h. aktuell ist keine Interoperabilität gegeben. Zur im besten Fall automatisierten Nutzbarmachung von Datensammlungen ist es notwendig, Metadatenbeschreibungen so zu standardisieren, dass alle wesentlichen Eigenschaften einer Datensammlung in maschinenlesbarer, semantisch annotierter Form vorliegen. Zahlreiche Initiativen arbeiten an dieser Thematik, insbesondere Nationale Forschungsdateninfrastruktur (NFDI), European Open Science Cloud (EOSC) und Gaia-X.

Für Automatic Speech Recognition (ASR)-Verfahren existieren außerdem bisher keinerlei Vorgaben oder Richtlinien, auf welche Weise z. B. Interpunktion oder Zahlen behandelt, d. h. transkribiert werden. Für den besseren Vergleich, für das Benchmarking und auch für den Austausch entsprechender Services ist eine Standardisierung notwendig.

DFKI hat in diesem Bereich bereits erste Erfahrungen im Rahmen des EU-Projekts European Language Grid gemacht sowie unter Mitwirkung der University of Sheffield erste Vorschläge vorgelegt. Dieser Aspekt betrifft auch eine Reihe beigelagerter Themen, z. B. Annotationsformate, Workflows, Benchmarks, Transferlearning bei Sprachmodellen. Das Problem: Alle Anbieter verfolgen jeweils ihre eigene Philosophie, d. h. sie bieten unterschiedliche, proprietäre APIs an. Hilfreich wäre es, die Technologien eines Anbieters mit Standarddatensätzen (oder eigenen Daten) und Standardmetriken zu evaluieren und somit vergleichen zu können (z. B. WER für ASR). Dieses Thema betrifft auch große Sprachmodelle, d. h. insbesondere, wie Sprachmodelle angesprochen werden, um Transferlearning durchzuführen. Zur Relevanz für die Industrie: Kein Unternehmen kann allein ein großes Sprachmodell entwickeln, weshalb Finetuning und Transfer auf Basis standardisierter Methoden und Schnittstellen missionskritisch sind, um das Sprachmodell an den jeweiligen Use Case anzupassen.

Mindestens europaweite Standardisierung von Language Technology und Natural Language Processing APIs bezüglich Funktionsumfang und Parametrisierung sollte erfolgen, sodass mehr Interoperabilität und auch bessere Vergleichbarkeit zwischen den Cloud-Services einzelner Anbieter entsteht. In diesem Zusammenhang können auch Datenformate, z. B. bezüglich Datenaustausch, und semantische Annotationsformate betrachtet werden. Dazu gehören die Standardisierung von Metadaten, Datensammlungen, Data-Sheets, Model-Cards, Sprachmodelle, Zugänglichkeit, Nutzung von Daten und Datensammlungen für Forschungszwecke und kommerzielle Anwendungen (kann ggf. in NFDI, EOSC, Gaia-X etc. eingebettet werden). Des Weiteren ist die Standardisierung von Richtlinien für Transkriptionsverfahren hilfreich, die oft ASR beinhalten oder auf ASR-Ausgaben aufsetzen, z. B. Zahl als Zahl, Zahl als Wort etc., Interpunktion, Groß- und Kleinschreibung etc.

Dieser Punkt schließt auch die Orchestrierung von Services in Form von Workflows oder Pipelines ein. Der Aspekt betrifft zudem die Standardisierung von Benchmarks zum Vergleich diverser Lösungen, z. B. ASR oder Natural Language Understanding (NLU). Im Rahmen von Anwendungen im Bereich des Dialogmanagements betrifft dieser Aspekt auch die Standardisierung von Ressourcen für die Modellierung von Dialogen.

01-16  Standardisierung der Messung von Performanz, Korrektheit, Präzision und Plausibilität großer Sprachmodelle sowie der Datenqualität 

Sprachmodelle stellen derzeit für viele sprachtechnologische Anwendungen den Stand der Forschung und Technik dar, allerdings existieren noch keine Standards bzw. Messung grundsätzlicher Eigenschaften wie z. B. Korrektheit, Präzision, Faktizität, Selbstkonsistenz etc. – u. a., um ein Sprachmodell einschätzen und unterschiedliche Sprachmodelle vergleichen zu können. Die Selbstkonsistenz eines Modells kann z. B. beinhalten, ob sich ein Modell bei bestimmten verwandten Fragen widerspricht. (Anm.: Regelbasierte/symbolische Modelle sind allerdings heute schon Teil von Hybridsystemen bzw. Pipelines). Beispielsweise kann die Messung des Wahrheitsgrads des Outputs von sprachmodellbasierten Anwendungen (bzw. die Selbstkonsistenz des Modells) – falls technisch möglich (und wenn auch nur in einigen klar definierten Bereichen) und belastbar realisierbar – die Qualität des Sprachmodells signalisieren. Zu beachten ist dabei, dass vermehrt auch multimodale Modelle, Bildverstehen, Kombination von Sprache und Bild, Zeichensprache (Erkennung und Generierung) auf Basis großer Sprachmodelle (Stanford nennt diese auch foundation models) durchgeführt werden.

Für das Training von Sprachmodellen und anderen maschinellen Lernverfahren werden u. a. Text-, Audio- und Videodaten eingesetzt. Derzeit existieren noch keine Standards zur Messung der Qualität derartiger Daten und Datensammlungen, u. a. um zu entscheiden, ob sie im Rahmen eines Trainingsdatensatzes nutzbar gemacht werden sollten. Standardisierte Verfahren zur Messung von Datenqualität besitzen ebenfalls eine große Relevanz für den Aspekt von Datenbias.

Standardisierung der Messung der Performanz, Korrektheit, Precision, Plausibilität im jeweiligen Anwendungskontext großer Sprachmodelle ist wünschenswert. In diesem Zusammenhang ist auch die Messung der Qualität des Outputs von generierenden Sprachmodellen relevant, z. B. bezüglich Sinnhaftigkeit, Grammatikalität, Semantik. Hier existiert ein Bedarf für standardisierte Metriken. Ferner müsste der Begriff „Sprachmodell” definiert werden, und zwar bezüglich Abgrenzung zu textverarbeitenden, evtl. auch regelbasierten Modellen.

Die Standardisierung von Ansätzen zur Messung von Datenqualität für Sprachmodelle, d. h. insbesondere Textqualität, aber auch Audioqualität und Videoqualität sind relevant für die Zusammenstellung von Datensets, die z. B. für das Training von Sprachmodellen benutzt werden, sowie für die Messung von Bias. Dies betrifft u. a. die Auswahl der Daten, die für das Training von Sprachmodellen eingesetzt werden, um z. B. Bias und Hatespeech zu bewerten/zu vermeiden etc. Auch für die Beschreibung und Messung von Bias selbst (inklusive einer Spezifizierung der unterschiedlichen Dimensionen von Bias, z. B. political bias, gender bias etc.) müssen Ansätze beschrieben und standardisiert werden.

01-17  Wissensgraphen und Ontologien in große Sprachmodelle       

Während Sprachmodelle den Stand der Wissenschaft und Technik für eine Vielzahl sprachtechnologischer Aufgaben darstellen, existieren zahlreiche Wissensbasen, Wissensgraphen und Ontologien, die symbolisches Wissen bzw. semantisches Wissen in symbolischer Repräsentation enthalten. Derzeit existieren noch keine Standards, wie derartige Wissensbasen und Ontologien in Sprachmodelle integriert und der jeweiligen Anforderung entsprechend sicher (Bewertung der „Kritikalität“) nutzbar gemacht werden können. Dieser Aspekt betrifft auch die Zusammenführung und Integrierung unterschiedlicher Wissensbasen und Wissenspakete.

Die Standardisierung von Ansätzen, wie Wissensgraphen und Ontologien in große Sprachmodelle, die integrierbar und nutzbar gemacht werden können, dient der Nutzung existierender symbolischer Wissensbestände im Rahmen der Stand der Forschung und Technik von Sprachtechnologien, die typischerweise auf großen Sprachmodellen basieren. Hierbei sollte auch die Zusammenführung, Integration und Verwaltung von Ontologien und Ontologiemodulen bzw. Ontologiepaketen aus unterschiedlichen Quellen betrachtet werden. Dabei können auch Ansätze betrachtet werden, wie (eher ontologiebasiertes) Weltwissen in (eher dokumentbasierte) Wissensgraphen integriert werden kann. Diese Aspekte sind wichtig und relevant für die Nutzung symbolischer Wissensbasen (d. h. Ontologien) im Rahmen von Knowledge-Graph-basierten Anwendungen.

01-18  Test- und Auditing-Prozesse für KI-Sprachanwendungen         

Im Kontext von vertrauenswürdiger KI wird die Standardisierung von Test- und Auditing-Prozessen auch für (lernende und kontinuierlich lernende) NLP-Systeme an Bedeutung gewinnen.

Insbesondere, wenn NLP-System wie Suchmaschinen, Empfehlungssysteme oder Chatbots als Entscheidungsunterstützungssysteme in kritischen Anwendungen dienen, wird es nötig sein, Test- und Auditingprozesse zu definieren. Dazu gehören neben den direkten Variablen (Art und Erzeugung der Testitems, Metriken zur Auswertung der Ergebnisse) auch die Frage der Prozessbeteiligten. Beispielsweise kann es im Gesundheitsbereich geboten sein, Patient*innenvertreter in einem partizipativen Prozess in die Gestaltung und Ausführung der Tests einzubeziehen. Kontinuierlich lernende Systeme werden in bestimmten Zyklen erneut getestet und auditiert werden müssen. Hier muss festgelegt werden, nach welchen Kriterien die Zyklen bestimmt werden.

01-21  Bewertungsmetriken und Methoden für Bilddatensätze und Erhebungs-/Synthetisierungsverfahren und bildauswertende ML-Verfahren entwickeln

Datensätze übernehmen insbesondere bei modernen ML-Verfahren zunehmend die Rolle von Parametern. Entsprechend werden, beispielsweise im Entwurf AI Act, Anforderungen an KI-Systeme auch mittels Anforderungen an Datensätze formuliert. Jedoch fehlen derzeit standardisierte Verfahren, anhand derer Qualitätseigenschaften von Datensätzen übergreifend beschrieben werden könnten. Einzelfallspezifische Verfahren erreichen jedoch keinerlei Vergleichbarkeit und begrenzen damit die Einschätzbarkeit unterschiedlicher KI-Verfahren. Eine Standardisierung entsprechender Verfahren zur Güteabschätzung sowie die gezielte Entwicklung von standardisierungsfähigen, anwendungsübergreifenden Verfahren kann hier wesentlich zu einem besseren, übergreifenden Verständnis beitragen – auch wenn die standardisierten Metriken nicht den Anspruch eines unumstrittenen, absoluten Gütekriteriums erfüllen, sondern lediglich eine transparente, übergreifende Indikation ermöglichen.

Es sollten standardisierte Bewertungsmetriken erarbeitet werden, die es erlauben, entweder Datensätze (aus echten oder aus synthetisch erzeugten Bilddaten) oder Verfahren, die diese Datensätze erzeugen, nach gängigen Gütekriterien zu bewerten. Diese Metriken sollten gängige Zielvorgaben, beispielsweise gemäß Entwurf EU-AI Act, aufgreifen (vgl. [4]), „Relevanz, Repräsentativität, Fehlerfreiheit und Vollständigkeit in Hinblick auf die beabsichtigte Anwendung“) und geeignete Messprinzipien dieser Zielvorgaben spezifizieren. Diese Metriken sollten weitgehend unabhängig von KI-Methoden oder Anwendungen sein, einschränkende Annahmen/Anwendbarkeiten, wo erforderlich, jedoch klar benennen. Bestehende Ansätze (beispielsweise [97]) sollen auf Eignung untersucht werden. Wo keine geeigneten Verfahren bestehen, die eine Abschätzung leisten können, sollen im Rahmen von F&E neue Ansätze erarbeitet werden.

01-22  Metriken zum Test bildverarbeitender KI-Systeme standardisieren

Analog zum Bedarf „Bewertungsmetriken und Methoden für Bilddatensätze und Erhebungs-/Synthetisierungsverfahren entwickeln“ besteht ein Bedarf zur Standardisierung von Metriken, die die Bewertung bildverarbeitender KI-Systeme ermöglichen und gleichzeitig deren Anwendungsgebiet definieren. Beispielsweise hat sich in der wissenschaftlichen Gemeinschaft die Metrik der „mean Intersection over Union“ (mIoU) für die Bewertung von ML-Verfahren zur Bildsegmentierung etabliert. Entsprechende Metriken sollten auch für andere Aufgabenstellungen wie z. B. Objektdetektion, Klassifizierungen oder Bildumwandlung bereitgestellt werden. Analoge Metriken für gängige KI-Verfahren gemeinsam zu standardisieren kann zur Vergleichbarkeit heterogener Ansätze beitragen.

Dabei ist zu berücksichtigen, dass die Metriken ggf. risikoabhängige Komponenten enthalten können (z. B. risikoabhängige Bewertungen von Segmentierungsfehlern z. B. in kritischen Regionen bei medizinischen Bilddaten). Diese Mechanismen sollten dabei so generisch/modellagnostisch gestaltet werden, dass sie leicht auf unterschiedliche Szenarien übertragen werden können.

01-23  Verfahren zur cybersicheren Authentifizierung auf Basis von Bilddaten

Es sind Verfahren zu entwickeln, die beurteilen, inwieweit gegebene Bildmerkmale nach dem Stand der Technik noch vertrauenswürdig sind (und mithin zur Authentifizierung genutzt werden können) und ab wann entsprechende Merkmale beispielsweise durch „Deep Fakes“ manipuliert sein können. Vorgehensweisen zur Sicherstellung der Authentizität von Identitäten und Informationen sind zu spezifizieren, anhand derer für unterschiedliche Anwendungen ein entsprechend benötigter Grad an Vertrauen hergestellt werden kann.

01-26  Umwandlung von DIN SPEC 13266:2020 [98] in eine Norm    

Es scheint keine Norm für Deep-Learning-Systeme zu geben.

DIN SPEC 13266:2020 [98] ist eine Spezifikation für Deep-Learning-Systeme und beschreibt den aktuellen Stand der Technik sehr gut. Daraus soll eine Norm werden.

...