5 Best Practices beim Testen von KI-Anwendungen

Mit der Ankündigung des weltweit ersten rechtlichen Rahmens zur Regulierung künstlicher Intelligenz (KI), dem europäischen Gesetz über Künstliche Intelligenz im April 2021, ist jetzt ein guter Zeitpunkt für Entwickler, ihre Strategien zum Testen von AI-Anwendungen zu überprüfen.

Dank der anstehenden Änderungen wurde die Gruppe der Stakeholder, die sich für deine Testergebnisse interessiert, größer und aktiver. Der Einsatz ist hoch. Das liegt nicht zuletzt daran, dass Verstöße gegen dieses Gesetz teurer sind als die gegen die Datenschutzgrundverordnung (DSGVO). Aus Gründen der Transparenz müssen die Metriken bestimmter KI-Typen den Nutzern zugänglich gemacht werden. Funktionstests sollten also unbedingt korrekt ablaufen.

Basierend auf dem Applause Leitfaden KI-Algorithmen trainieren und testen in 5 Schritten, wird in diesem Artikel zusammengefasst, wie Entwickler KI-Anwendungen in Vorbereitung auf die neue Ära der KI-Normen testen sollten. Bevor wir zu den fünf Best Practices übergehen, sollte jedoch jeder verstehen, wie das europäische Gesetz über Künstliche Intelligenz die Arbeit der KI-Entwickler beeinflussen wird.

Der Gesetzesentwurf der EU

Im vorgeschlagenen Gesetz über Künstliche Intelligenz unterliegen nicht alle KI-Systeme denselben Regeln. Der Verordnungsentwurf sieht vor, KI-Systeme anhand ihres Risikos für die Gesellschaft in vier Kategorien zu unterteilen und rechtlich zu behandeln:

Systeme mit unzumutbarem Risiko (wie Dark Pattern-KI, biometrische Identifikationssysteme mit Fernzugriff in Echtzeit und Social Scoring-Mechanismen) sind vollständig verboten.
Systeme mit hohem Risiko (wie in der Strafverfolgung, bei der Mitarbeiterverwaltung, dem Betrieb kritischer Infrastruktur, biometrischer Identifikation in nicht öffentlichen Räumen und Grenzkontrollen) werden stark reguliert.
Systeme mit begrenztem Risiko (wie Deepfakes, Chatbots und Emotionserkennungssysteme) unterliegen bestimmten Offenlegungspflichten
Systeme mit minimalen Risiken (wie KI-gestützte Videospiele und Spamfilter) unterliegen keinen Anforderungen. Die Entwickler werden jedoch angehalten, Codes of Conduct auszuarbeiten.

Das bedeutet, dass gemäß dem europäischen Gesetz über Künstliche Intelligenz hauptsächlich KI-Systeme mit hohem Risiko zahlreichen Anforderungen genügen müssen. Wird der Gesetzesentwurf durchgebracht, müssen alle weltweit entwickelten KI-Systeme mit hohem Risiko, die auf dem europäischen Markt vertrieben werden, mit der CE-Kennzeichnung (Conformité Européenne) versehen werden. Dieses EU-Logo erhalten Produkte, die bestimmten Sicherheitsvorschriften genügen. Dazu müssen die Systeme mit hohem Risiko den Vorgaben bezüglich menschlicher Aufsicht, Transparenz, Cybersicherheit, Risikomanagement, Datenqualität, Überwachung und Meldepflichten genügen.

Das müssen KI-Entwickler beachten

Die wichtigste Erkenntnis aus diesem Artikel ist wohl, dass das europäische Gesetz über Künstliche Intelligenz die KI-Entwicklung nicht allein in Europa, sondern weltweit beeinflussen kann. Der Gesetzesentwurf gilt nämlich nicht nur für alle KI-Systeme auf dem europäischen Markt, sondern auch für die Systeme, deren Output in der EU verwendet wird. Der sogenannte Brüssel-Effekt wird dafür sorgen, dass viele Tech-Entwickler außerhalb der EU das europäische Gesetz über Künstliche Intelligenz einhalten müssen, wenn sie auf den europäischen Markt möchten.

Auch wenn Entwickler nichts mit Europa zu tun haben, sind sie möglicherweise indirekt vom europäischen Gesetz über Künstliche Intelligenz betroffen. EU-Vorschriften stellen häufig eine globale Grundsatzentscheidung dar, ähnlich wie die DSGVO, die entsprechende Datenschutzgesetze in Ländern wie den USA, Chile und Indien beeinflusste. Margrethe Vestager, Executive Vice President von „A Europe Fit for the Digital Age“ glaubt, dass das europäische Gesetz über Künstliche Intelligenz da keine Ausnahme ist. In einer Pressemitteilung erklärt sie: „ Mit diesen wegweisenden Vorschriften steht die EU an vorderster Front bei der Entwicklung neuer weltweiter Normen.“

Wissen Unternehmen nicht genau, ob der Output ihrer KI in der EU genutzt wird, sollte Vorsicht walten lassen, denn die Nichteinhaltung der Regeln kann Strafen in Höhe von bis zu 30 Millionen Euro oder 6 % des Jahresumsatzes des Unternehmens nach sich ziehen. Aus der Vergangenheit wissen wir, dass die EU Rechtsverstöße streng ahndet. Google wurde im vergangenen Jahr wegen Verstoß gegen die DSGVO mit einer Strafe in Höhe von 50 Millionen Euro belegt. Und das war nur eine der 220 verhängten Strafen für DSGVO-Verstöße innerhalb der ersten 10 Monate des Jahres 2020. Zahlreiche Unternehmen unterschätzten den Aufwand für die notwendige Anpassung ihrer Prozesse an die Vorgaben. So befolgen gemäß einer Studie von TrustArc 20 % der Unternehmen in den USA, in Großbritannien und selbst in der EU noch nicht alle Vorgaben der DSGVO.

Das europäische Gesetz über Künstliche Intelligenz wird in etwa fünf Jahren wirksam. Egal ob KI-Unternehmen bereits heute mit Europa Geschäfte betreiben oder den Vorstoß in den EU-Markt erst planen: Sie müssen jetzt handeln, um ausreichend Zeit zum Testen der KI-Anwendungen zu haben. Studien von McKinsey zeigen, dass 2020 nur 48 % der Technologieunternehmen die Risiken im Zusammenhang mit den neuen Gesetz erkannt hatten und dass weniger als 38 % aktiv daran arbeiteten. Trotzdem zeigt eine andere Studie von Accenture, dass 72 % der US-amerikanischen Führungskräfte davon ausgehen, dass KI ihre Branche dramatisch verändert.

5 Best Practices

Jedes Unternehmen ist alleine für die Einhaltung der gelten Gesetze und des möglicherweise in Kraft tretenden neuen Rahmens verantwortlich. Das Applause-Framework zum Testen und Trainieren von KI-Anwendungen antizipiert jedoch zahlreiche der im europäischen Gesetz über Künstliche Intelligenz betroffenen Bereiche. Schließlich handelt es sich bei zahlreichen Anforderungen des Gesetzesentwurfs – wie bei der Garantie der Genauigkeit des Outputs, der Identifizierung von Verzerrungen und der Umsetzung guten Datenmanagements – schlicht um Best Practices, die die Qualität KI-basierter Erlebnisse deutlich verbessern können. Hier sind einige der Schlüsselbereiche, in denen wir dich unterstützen können:

1. Richtig loslegen

Das Testen der KI-Anwendungen ist unumgänglich, ist jedoch nur ein Teil des Ganzen. Algorithmen sind nur so smart, wie die Daten, auf denen sie basieren. Wurde deine KI also nicht mit hochwertigen Daten trainiert, kommst du auch mit Tests nicht viel weiter. Im europäischen Gesetz über Künstliche Intelligenz wird die Bedeutung der Trainingsdatensätze für die Erzeugung akkurater und nicht verzerrter Ergebnisse betont und festgehalten, dass diese relevant, repräsentativ, fehlerfrei und vollständig sein müssen.

Laut einer Umfrage von Alegion sagen 81 % der Führungskräfte, dass das Erfassen von Trainingsdaten für KI-Modelle schwieriger als erwartet ist. Viele Unternehmen auf der Suche nach Trainingsdatensätzen unterschätzen den finanziellen und organisatorischen Aufwand, der mit dem Auffinden und Aufbereiten großer Mengen Daten einhergeht. So entstehen durch Fehlstarts und Produktverzögerungen hohe Gesamtkosten. Andere nutzen Datenanbieter wie Amazon Mechanical Turk, die große Datenvolumen zu geringen Kosten bereitstellen, die häufig jedoch nicht genau auf die Bedürfnisse der einzelnen Unternehmen zugeschnitten sind.

Unsere globale Tester-Community kann Applause schnell beliebige Trainingsdatensätze wie Text, Bilder, Sprache, Handschriften, biometrische Daten und mehr in großem Umfang beschaffen. Bei der Beschaffung von Beispieldatensätzen erzielen wir die größte Reichweite, da wir authentische Datensätze aus erster Hand aus verschiedenen Ländern, Kulturen, Communitys, sozialen und ethnischen Gruppen, Altersgruppen und Geschlechtern erheben. Entwickler müssen global denken, um die Vielseitigkeit der erforderlichen Daten zu garantieren und damit Verzerrungen zu vermeiden und genaue, repräsentative Ergebnisse zu erzielen.

2. Jenseits von Mobil und Web denken

Das Testen von KI-Anwendungen war so viel einfacher, als die Verbraucher noch die meiste Zeit an mobilen Geräten und im Internet verbrachten. Der Entwurf des Europäischen Gesetzes über Künstliche Intelligenz fällt mit der Verbreitung von Technologien wie Sprache, Gesichtserkennung und IoT zusammen, die wiederum Trends wie Omnichannel- und multimediale Erlebnisse befeuern. Entwickler müssen heutzutage KI-Anwendungen auf allen Geräten testen, auf denen sie angewendet werden könnten, also Wearables, intelligente Haushaltsgeräte, Systeme in Fahrzeugen und Einkaufserlebnisse im Store.

Im europäischen Gesetz über Künstliche Intelligenz wird auch die dunklere Seite neuer Technologien nicht übersehen, insbesondere die, bei der Verbraucher diese ohne ihr Wissen nutzen. Artikel 52 legt beispielsweise fest, dass Personen in der EU darüber informiert werden müssen, ob es sich bei einem Video um Deepfakes handelt, ob ein Gesprächspartner ein Sprachassistent ist oder ob sie biometrisch kategorisiert werden. Unternehmen können testen, ob die Nutzer sich bewusst sind, wenn dies passiert. So können sie messen, ob sie diese Anforderung wirklich einhalten.

3. Außerhalb des Labors testen

Die Menschheit bildet den Kern des europäischen Gesetzes über Künstliche Intelligenz. Das Gesetz wurde geschaffen, weil die Europäische Kommission erkannt hat, dass KI nur dann ihr volles wirtschaftliches Potenzial ausschöpfen kann, wenn Menschen ihr vertrauen. Unternehmen sehen das ähnlich: 58 % der Führungskräfte sagen in einem Bericht von Accenture, dass KI-getriebenes Wachstum durch höhere Kundenzufriedenheit und -bindung entsteht.

Ein Schlüsselproblem von KI-Systemen heute ist, dass sie nicht denselben Service wie Menschen erbringen. Untersuchungen von Capgemini zeigen, dass 64 % der Verbraucher sich menschenähnlichere KIs wünschen, wenn sie mehr mit Technologie interagieren sollen. Laut Pega bevorzugen weitere 70 % noch immer das Gespräch mit einem Menschen im Kundendienst. Möchten Tech-Entwickler die Bedenken der Verbraucher zu beschwichtigen und menschenähnlichere KIs zu bauen, müssen sie sicherstellen, dass ihre KI-Erlebnisse nicht nur theoretisch einwandfrei, sondern auch für die Nutzer wirklich praktisch sind.

Ob ein KI-Erlebnis die Kundenerwartungen erfüllt, kann jedoch nicht wirklich in einem Labor geprüft werden. Im Labor kann man messen, ob eine KI Informationen korrekt erfasst oder angemessen reagiert, aber nur Menschen können folgende Leistungsindikatoren beurteilen:

Wurde ich verstanden?
Habe ich das gehört oder gesehen, was ich erwartet habe?
War die Benutzung einfach?
Habe ich alles bekommen, was ich brauche?
Würde ich es nochmal nutzen?

Nur in Tests mit echten Nutzern können Unternehmen wirklich hilfreiche KI-Erlebnisse produzieren.

4. Verzerrungen aktiv identifizieren und beheben

KI-Systeme werden mit erhobenen Daten trainiert und von Menschen erstellt. Daher entstehen häufig unbeabsichtigte Verzerrungen: Unbeabsichtigt deswegen, weil Individuen ihre eigenen Verzerrungen nicht immer identifizieren können. Deshalb kann es sein, dass Verzerrungen bei KI-Erlebnissen, die mit einer kleinen Gruppe von Menschen getestet werden, nicht auffallen. Dies wiederum kann zur Marginalisierung bestimmter Gruppen oder der Verstärkung von Vorurteilen führen. Außerdem diskriminiert ein KI-System möglicherweise einige deiner Nutzer, indem es bei bestimmten Gruppen besser funktioniert als bei anderen. Daher müssen gemäß dem europäischen Gesetz über Künstliche Intelligenz bestimmte Systeme auf Verzerrungen geprüft werden.

Wie bereits besprochen, besteht ein Großteil der Arbeit bei der Beseitigung von Verzerrungen darin, dass die zum Training der KI verwendeten Daten eine möglichst diverse Menschengruppe repräsentieren. Repräsentative Trainingsdaten können also Verzerrungen entschärfen, aber nur durch Tests kann sichergestellt werden, dass der Algorithmus deiner KI-Anwendungen nicht verzerrt ist. Entwickler können verzerrte Algorithmen nur mittels eines großen, vielseitigen Testerpools identifizieren, der die KI testet, sodass die Testergebnisse analysiert werden können. Hier kann die uTest-Community von Applause, die weltweit größte Community ausgebildeter Tester, unschätzbare Dienste leisten.

5. Feedback-Loops einbauen

Algorithmen können nicht nur lernen, sondern auch vergessen und neu lernen. Nach dem Testen deiner KI-Anwendungen auf Ungenauigkeiten und Verzerrungen sollte ein Feedback-Loop in den Entwicklungsprozess eingebaut sein, die ständig Fehler behebt. Das Testen von KI-Anwendungen ist ein zirkulärer Prozess, denn die Output-Daten können verwendet werden, um die Input-Daten so lange neu einzustellen, bis der Output korrekt ist. Angesichts der Tatsache, dass das europäische Gesetz über Künstliche Intelligenz wahrscheinlich weltweit zu ähnlichen Gesetzen führt, müssen sich auch KI-Systeme an neue Anforderungen anpassen.

Applause arbeitet mit den weltweit führenden Tech-Unternehmen für globale KI-Programme. Erfahre mehr darüber, wie wir dir helfen können.

Möchten Sie mehr davon sehen?

Künstliche Intelligenz trainieren und testen

Ben Anderson

Leiter KI und Sprache

Veröffentlicht am: 17. November 2021

Lesezeit: 10 min