Developer
Total Experience  | 14 Aug 2025

Guide: Das Testen von KI-Software

Neue Technologie, neue Herausforderungen, neue Lösungen

Mario Rolletschek Portrait
Mario Rolletschek

Der Einsatz von Künstlicher Intelligenz (KI) revolutioniert die Softwarebranche und verändert Organisationen grundlegend. Doch mit neuen Möglichkeiten kommen auch neue Herausforderungen: Fehlerhafte KI-Systeme können nicht nur finanzielle Verluste verursachen, sondern auch das Vertrauen Ihrer Kundschaft und Partner riskieren.


Doch wie unterscheidet sich das Testen von KI-Software von anderen Applikationen und Tools, und welche Methoden sind dabei am effektivsten? Dieser Artikel liefert Antworten. 

Die beiden größten Unterschiede zwischen KI-Software und herkömmlicher Software

In der Arbeitsweise :

Der Kernunterschied liegt in der Arbeitsweise: Während klassische Software deterministisch ist (ein System, das bei gleichen Eingaben immer dasselbe Ergebnis liefert), arbeitet KI oft probabilistisch. Das bedeutet: 

  • Nicht vorhersehbare Ergebnisse: KI kann auf dieselben Eingaben unterschiedlich reagieren. 

  • Dynamische Systeme: KI-Modelle können sich durch neue Daten weiterentwickeln. 

  • Datenabhängigkeit: Die Qualität des Modells hängt von der Qualität der Trainingsdaten ab (Daten, mit denen KI-Modelle lernen und ihre Vorhersagen verbessern).

In den Qualitätsmerkmalen:

Bei Software ohne KI sind folgende Qualitätsmerkmale relevant: 

  • Funktionalität 

  • Zuverlässigkeit 

  • Benutzbarkeit 

  • Effizienz 

  • Sicherheit 

  • Wartbarkeit 

  • Kompatibilität 

  • Portabilität 


KI-Software ist weitaus komplexer und bringt zusätzliche Qualitätsmerkmale mit sich: 

  • Flexibilität in Situationen und Anwendungsfällen, die ursprünglich nicht geplant waren 

  • Anpassbarkeit der KI-Modelle an neue Hardware oder Einsatzumgebungen 

  • Autonomie als Fähigkeit des KI-Systems, ohne menschliche Kontrolle zu arbeiten 

  • Evolution des KI-Systems, sich selbst aufgrund neuer äußerer Umstände zu verbessern 

  • Verzerrung als Indikator für die Qualität der Ergebnisse eines KI-Systems. 

  • Nebenwirkungen und Belohnungs-Hacking als Merkmal, dass das KI-System Aufgaben im Sinne des Aufgabenstellers löst 

  • Transparenz, Interpretierbarkeit und Erklärbarkeit für Sicherheit und Vertrauen in die KI-Systeme 


Diese Faktoren erfordern spezielle Teststrategien, um eine hohe Qualität und Verlässlichkeit sicherzustellen. 

Teststufen von KI-Software

Bevor wir uns mit konkreten Techniken befassen, werfen wir einen Blick auf die einzelnen Teststufen. 

Neben den bisherigen Teststufen wie Komponenten-, Integrations-, System- und Abnahmetest von konventioneller Software, führen wir bei KI-basierten Systemen vorgelagert zwei weitere Teststufen ein: 


Eingabedatentests 

Die Eingabedatentests stellen die Datenqualität für Training, Evaluierung, Test und Einsatz sicher: 

  • Reviews 

  • Statistische Techniken wie z. B. das Testen der Daten auf Verzerrungen 

  • Explorative Datenanalyse (EDA) der Trainingsdaten beinhaltet das Untersuchen und Visualisieren von Daten, um Muster, Trends oder Auffälligkeiten zu finden 

  • Statische und dynamische Tests der Datenpipeline (Datenpipeline = der gesamte Prozess von der Sammlung und Verarbeitung der Daten bis hin zur Nutzung in einem KI-Modell.) 


Maschinelles Lernen (ML)-Modelltests 

Ein gut trainiertes Modell ist noch lange nicht fehlerfrei. Modelltests sollten sicherstellen, dass es alle festgelegten Kriterien erfüllt: 

  • Funktionale Leistungskriterien 

  • Nicht-funktionale Abnahmekriterien 

Herausforderungen beim Testen von KI-Software

Datenvorbereitung 

Die Basis für KI-Modelle und somit auch für die Qualität ihrer Ergebnisse sind Daten. Eine korrekte Datenvorbereitung ist somit essenziell – dabei gilt es, folgende Faktoren zu beachten: 

  • Wissen über den Anwendungsbereich, Daten und ihre Eigenschaften sowie verschiedene Techniken der Datenvorbereitung 

  • Die Schwierigkeit, qualitativ hochwertige Daten aus verschiedenen Quellen zu erhalten. 

  • Die korrekte Automatisierung der Datenpipeline, damit die Produktionsdatenpipeline skalierbar und performant ist 

  • Die Überprüfung auf mögliche Fehler, die eventuell während der Datenvorbereitung in die Datenpipeline eingebracht wurden 

  • Unangemessene Datenverzerrungen, bei denen Daten durch den Algorithmus überbewertet werden oder nicht vollständig repräsentativ sind 


Trainings-, Validierungs- und Testdatensätze 

Zur Entwicklung eines ML-Modells sind drei Sätze gleichwertiger Daten erforderlich (d. h. zufällig aus einem einzigen Ausgangsdatensatz ausgewählt): 

  • Trainingsdatensatz für das Training des Modells 

  • Validierungsdatensatz für die Evaluierung und das Tuning des Modells 

  • Testdatensatz für die Tests mit dem abgestimmten Modell 


Selbst wenn unbegrenzt viele passende Daten vorhanden sind, bestimmt sich die Datenmenge für Training, Evaluation und Testen im ML-Prozess durch folgende Faktoren: 

  • Der zum Training verwendete Algorithmus 

  • Die Verfügbarkeit von technischen Ressourcen 


Spezifikation beim Testen von KI-Applikationen 

Spezifikationen bilden die Grundlage für jede:n Tester:in. Diese können allerdings bei KI-basierten Systemen aus folgenden Gründen eine besondere Herausforderung sein: 

  • explorativer Charakter der KI-basierten Systementwicklung 

  • die Genauigkeit eines KI-basierten Systems ist oft nicht bekannt 

  • probabilistischer Charakter vieler KI-basierter Systeme, benötigt Qualitätstoleranzen 

  • spezifizierte Verhaltensanforderungen basieren auf Nachahmung menschlichen Verhaltens 

  • bei hohen Flexibilitätsanforderungen (z. B. in Verbindung mit Sprache) 

  • Berücksichtigung der neuen KI-Software-Qualitätsmerkmale 


Ein Testorakel dient hier als Informationsquelle, um das erwartete Ergebnis zu bestimmen. Bei KI-Systemen ist jedoch schon die Bestimmung dieses erwarteten Ergebnisses schwierig – man spricht vom Testorakel-Problem. 

  • Komplexe KI-Systeme: Bei Systemen, die nicht immer das gleiche Ergebnis liefern (wie z. B. bei Wettervorhersagen oder komplexen Analysen), kann man schwer im Voraus sagen, was das "richtige" Ergebnis ist. Um das System zu testen, bräuchte man aber genau diese Information. 

  • Selbstlernende Systeme: KI-Modelle, die ständig dazulernen, verändern ihr Verhalten. Was gestern noch die richtige Antwort war, kann sich heute ändern. Das macht es schwer, einen festen Maßstab für die Überprüfung zu haben. 

  • Subjektive Beurteilung: Bei Systemen wie KI-Sprachassistenten ist "richtig" oft eine Frage der persönlichen Einschätzung. Was für eine Person eine gute Antwort ist, mag für eine andere nicht zutreffen. Es gibt keine einfache Ja/Nein-Antwort. 


Automatisierungsverzerrungen 

Bestimmte KI-Systeme helfen uns, bessere Entscheidungen zu treffen. Manchmal verlassen wir uns jedoch zu sehr auf diese Systeme und vertrauen ihnen blind. Dieses übertriebene Vertrauen nennt man "Automatisierungsverzerrung". Es gibt zwei Arten davon: 

  1. Automatisierungsakzeptanz: Der Mensch übernimmt die Empfehlungen des Systems, ohne alternative Informationen oder eigene Einschätzungen zu berücksichtigen. Er verlässt sich ausschließlich auf die automatisierten Vorschläge. 

  2. Automatisierungsfehlerraten: Der Mensch übersieht Systemfehler, da er aufgrund des übermäßigen Vertrauens in das System keine angemessene Überwachung oder kritische Prüfung durchführt. 


Beispiel: Automatisierungsverzerrungen könnten beispielsweise auftreten, wenn ein KI-gestütztes Kreditbewertungssystem immer automatisch befolgt wird – ohne individuelle menschliche Prüfung. Dies kann zu ungerechten oder diskriminierenden Kreditentscheidungen führen, da potenziell relevante, aber nicht im System berücksichtigte individuelle Faktoren ignoriert werden. 

Konzeptdrift 

Die Einsatzumgebung kann sich im Laufe der Zeit verändern, ohne dass sich das trainierte Modell entsprechend anpasst. Dieses Phänomen wird als Konzeptdrift bezeichnet und führt in der Regel dazu, dass die Ergebnisse des Modells immer ungenauer und weniger nützlich werden. 

Beispiel: Ein typischer Konzeptdrift zeigt sich etwa im Online-Handel, wenn ein Kundenverhaltensmodell nicht saisonal angepasst wird und zunehmend irrelevante Empfehlungen gibt. 


Selbstlernende Systeme 

Das Testen selbstlernender Systeme bringt besondere Herausforderungen mit sich, da sich diese Systeme kontinuierlich und unvorhergesehen verändern können. 

  • Testfälle, die ursprünglich für bestimmte Systemzustände entworfen wurden, könnten aufgrund von unerwarteten Änderungen im Systemverhalten schnell irrelevant werden. Die Teststrategie muss daher kontinuierlich angepasst werden, um aktuelle und potenziell unerwartete Verhaltensänderungen wirksam abzudecken. 

  • Komplexe Abnahmekriterien müssen definiert werden, die nicht nur die aktuelle Leistung, sondern auch erwartete Selbstverbesserungen des Systems berücksichtigen. 

  • Weil sich das System so schnell ändert, müssen Tests automatisiert werden. Manuelle Tests wären einfach zu langsam, um mit den vielen Änderungen Schritt zu halten. 

  • Da für systemeigene Verbesserungen immer mehr Arbeitsspeicher benötigt wird und die Testumgebung komplexer wird, um alle Risiken abzudecken, steigen die Anforderungen an die Ressourcen. 

  • Es ist schwer, alle nötigen Testfälle und Umgebungen zu finden, weil man nicht vorhersagen kann, wie die Software später in der echten Welt verwendet wird und welche Probleme dort auftreten könnten. 


Autonome Systeme 

Wenn wir autonome Systeme testen, müssen wir Situationen schaffen, in denen das System lernt, selbstständig zu entscheiden. Nur so können wir herausfinden, wann es allein handeln kann und wann es Hilfe von einem Menschen braucht: 

  • Grenzen testen: Prüfen, ob das System einen Menschen um Hilfe bittet, wenn es an seine Grenzen stößt oder sich die Umgebung ändert. 

  • Rechtzeitige Übergabe: Überprüfen, ob das System die Steuerung rechtzeitig an einen Menschen übergibt, wenn es das tun soll. 

  • Unnötige Hilfeanforderung: Testen, ob das System nicht unnötig oft einen Menschen ruft, obwohl es die Aufgabe noch selbstständig lösen könnte. 

Methoden für das Testen KI-basierter Systeme

Methode 1: Paarweises Testen 

Die Anzahl der Parameter für ein KI-basiertes System kann extrem hoch sein. Beispiele dafür sind selbstfahrende Autos oder Sprachübersetzungssysteme. Alle möglichen Einstellungen und Kombinationen zu testen, würde ewig dauern. Deshalb wählen wir nur die wichtigsten Tests aus, um die Zeit effizient zu nutzen. 


Wenn man viele Einstellungen (Parameter) mit unterschiedlichen Werten hat, würde es zu lange dauern, jede Kombination zu testen. Deshalb nutzt man kombinatorisches Testen. Dabei werden nur die wichtigsten Kombinationen getestet, was die Anzahl der Tests stark verringert. Die Forschung hat gezeigt, dass die meisten Fehler nur durch wenige gleichzeitig auftretende Einstellungen verursacht werden. In der Praxis ist das paarweise Testen das am weitesten verbreitete Verfahren. 


Schauen wir uns dies an einem konkreten Beispiel anhand einer Sprachübersetzungssoftware an. Folgende Parameter spielen hier eine Rolle: 

  • Eingabemodus: Text, Sprache 

  • Quellsprache: Englisch, Deutsch, Spanisch 

  • Zielsprache: Französisch, Russisch, Japanisch 

  • Internetverbindung: WLAN, Mobile Daten, Offline-Modus 


Wenn wir alle Kombinationen testen müssten, wären das 2x3x3x3 = 54 Testfälle. 

Durch das paarweise Testen reduzieren wir die Testfälle drastisch, indem wir nur sicherstellen, dass jede Kombination aus zwei Parametern mindestens einmal getestet wird. Dies könnte z. B. so aussehen: 

  • Text – Englisch – Französisch – WLAN 

  • Sprache – Deutsch – Japanisch – Mobile Daten 

  • Text – Spanisch – Russisch – Offline-Modus 

  • Sprache – Englisch – Russisch – WLAN 

  • Text – Deutsch – Japanisch – Mobile Daten


     

Methode 2: Vergleichendes Testen 

Eine der möglichen Lösungen für das Testorakelproblem beim Testen KI-basierter Systeme wird durch die Verwendung von vergleichendem Testen (Back-to-back Testing) dargestellt. 

Bei diesem Verfahren wird eine alternative Version des Systems als Pseudo-Orakel eingesetzt und dessen Ausgaben werden mit den vom SUT (System under Test) erzeugten Testergebnissen verglichen. 

Im Zusammenhang mit ML ist es möglich, verschiedene Frameworks, Algorithmen und Modelleinstellungen zu verwenden, um ein ML-Pseudo-Orakel zu erstellen. 


Wichtig: Damit Pseudo-Orakel bei der Fehlerfindung effektiv sind, sollte keine gemeinsame Software im Pseudo-Orakel und im SUT vorhanden sein. 


Vorteile des Pseudo-Orakels: 

  • Einfacher zu entwickeln: Das Pseudo-Orakel muss nicht perfekt sein. Es muss zum Beispiel nicht so schnell oder effizient sein wie unser eigentliches System. Es kann auch auf einer einfacheren Basis oder mit anderen Technologien entwickelt werden. Das macht die Erstellung oft günstiger und schneller. 

  • Keine gleichen Fehler: Wichtig ist, dass das Pseudo-Orakel und das System, das wir testen, unabhängig voneinander entwickelt werden. Wenn beide Systeme denselben Code oder dieselbe Technologie verwenden, könnten sie den gleichen Fehler machen und uns täuschen, indem sie dasselbe falsche Ergebnis liefern. 


Diese Methode ist besonders nützlich im Bereich des maschinellen Lernens (ML). Hier kann man für das Pseudo-Orakel einfach einen anderen Algorithmus oder ein anderes Modell verwenden. Back-to-back-Testing ist eine effektive Methode, um Fehler in komplexen KI-Systemen zu finden, selbst wenn die "richtige" Antwort nicht von vornherein feststeht. 


Methode 3: A/B-Testen 

A/B-Testen ist eine Methode, bei der die Reaktion von zwei Varianten (A und B) auf dieselben Eingaben verglichen wird, um zu ermitteln, welche der beiden Varianten besser ist. Dies ist auch ein Ansatz zur Lösung des Testorakelproblems, bei dem das bestehende System als Teilorakel verwendet wird. Einen ausführlichen Guide zum A/B-Testing finden Sie hier. 

Stellen Sie sich vor, wir haben eine alte Version (A) und eine neue, aktualisierte Version (B) unseres KI-Systems. Das A/B-Testing vergleicht diese beiden Versionen direkt miteinander. Wir prüfen, ob die neue Version (B) genauso gut oder sogar besser ist als die alte (A). Dabei messen wir, wie gut die Systeme ihre Aufgaben erfüllen, zum Beispiel anhand von Kennzahlen wie der Genauigkeit einer Vorhersage. 


Ein Beispiel: 

Ein intelligentes Verkehrssystem in der Stadt soll den Verkehr besser regeln. Wir erstellen eine aktualisierte Version davon. Um zu testen, ob die neue Version tatsächlich besser ist, könnten wir sie eine Woche lang verwenden und die durchschnittliche Pendelzeit messen. In der nächsten Woche nutzen wir die alte Version und messen ebenfalls die Pendelzeit. Wenn die Pendelzeiten mit der neuen Version kürzer sind, wissen wir, dass unsere Aktualisierung erfolgreich war. 


Der Unterschied zum Back-to-back-Testing: 

  • A/B-Testing vergleicht meist zwei leicht unterschiedliche Versionen des gleichen Systems, um zu sehen, welche besser funktioniert. 

  • Back-to-back-Testing (wie wir es zuvor besprochen haben) verwendet zwei unabhängige Systeme, um Fehler zu finden. Hier geht es nicht darum, welche Version besser ist, sondern darum, ob ein System überhaupt fehlerfrei funktioniert. 


Methode 4: Metamorphes Testen 

Metamorphes Testen ist eine Testmethode, die speziell dann eingesetzt wird, wenn traditionelle Testorakel schwierig zu definieren sind. 

  • Schritt 1: Zunächst wird ein Ausgangstestfall durchgeführt. Wenn dieser erfolgreich bestanden wird, dient er als Grundlage für weitere Tests. 

  • Schritt 2: Die weiteren Tests werden durch sogenannte metamorphe Relationen (MR) definiert. Das sind Regeln, die festlegen, wie eine Änderung der Eingabedaten sich auf das erwartete Testergebnis auswirken sollte. 


Einfach ausgedrückt bedeutet das: Wenn wir eine bestimmte Eingabe leicht ändern und wissen, wie sich das Ergebnis ändern sollte, können wir überprüfen, ob das KI-System sich erwartungsgemäß und logisch verhält. 


Ein typisches Beispiel wäre eine KI zur Bilderkennung: Ein Ausgangstest könnte prüfen, ob das System ein Bild korrekt erkennt. Danach wird das Bild leicht verändert (z. B. gedreht). Die MR besagt, dass das Ergebnis trotz Drehung weiterhin „korrekt“ (z. B. als dieselbe Person oder dasselbe Objekt) erkannt werden sollte. Diese Relation zwischen Testfällen wird dann geprüft. 

Business Benefits guter KI-Testpraktiken

Die sorgfältige und professionelle Prüfung von KI-Systemen ist nicht nur eine technische, sondern vor allem eine geschäftliche Notwendigkeit. Unternehmen profitieren von umfassenden KI-Tests durch: 

  • Reduzierte Risiken: Frühzeitige Erkennung und Vermeidung von Fehlern, die finanzielle Schäden und Reputationsverlust verursachen könnten. 

  • Höhere Rechtssicherheit: Sicherstellung, dass das KI-System gesetzlichen Anforderungen (z. B. Datenschutz) und ethischen Standards entspricht. 

  • Bessere Kundenzufriedenheit: Zuverlässige, verständliche und faire KI-Systeme stärken das Vertrauen der Nutzer:innen und erhöhen die Kundenbindung. 

  • Langfristiger Unternehmenserfolg: Robuste KI-Teststrategien helfen dabei, langfristige Geschäftsziele nachhaltig zu unterstützen und Innovationen sicher umzusetzen. 


Kurz gesagt: Gute KI-Testpraktiken schaffen Wettbewerbsvorteile, sichern Investitionen und fördern nachhaltig den Erfolg Ihres Unternehmens. 

Fazit: Qualitätssicherung als Schlüssel zum Erfolg

KI-Software zu testen, erfordert neue Ansätze und Methoden. Unternehmen, die sich dieser Herausforderung stellen, können nicht nur technische Risiken minimieren, sondern auch langfristig das Vertrauen ihrer Zielgruppe sichern. 


Sind Sie bereit, Ihre KI-Software auf das nächste Level zu heben? Nutzen Sie unsere Expertise, um Ihre KI-Systeme sicher und erfolgreich zu testen. Kontaktieren Sie uns und profitieren Sie von maßgeschneiderten Teststrategien, die Ihr Unternehmen fit für die Zukunft machen. 

Mario Rolletschek Portrait
Mario Rolletschek

Als Senior Quality Engineer verfügt Mario über umfassendes Wissen im Bereich der Software-Qualitätssicherung. Mit seiner über zehnjährigen Erfahrung unterstützte er unsere Teams dabei, die Qualität unserer Softwareprodukte kontinuierlich zu verbessern und entsprechende Qualitätssicherung-Prozesse erfolgreich zu implementieren.

Alle Artikel ansehen