Bewerten Sie die Qualität von KI-Modellen mit Bewertungen von Prompts und Antworten.
In einem kürzlich abgehaltenen Webinar über Best Practices für das Testen von KI-Anwendungen erwähnte ich die Prompt- und Antwortbewertung als eine Möglichkeit zur Verbesserung der Modellqualität. Während des Webinars hatte ich keine Zeit, näher darauf einzugehen, aber in diesem Beitrag möchte ich das Thema weiter vertiefen. Lesen Sie weiter, um zu erfahren, was Prompt-und-Antwort-Benotung ist, warum sie verwendet wird und wie diese Art von Tests durchgeführt wird.
Was ist die Bewertung von Prompt und Antwort?
Die Bewertung von Prompts und Antworten ist ein systematischer Ansatz zur Bewertung der Qualität und Genauigkeit von Ausgaben generativer KI (Gen AI) als Reaktion auf bestimmte Benutzereingaben. Bei der Bewertung werden in der Regel mehrere Faktoren berücksichtigt, darunter Relevanz, Genauigkeit, Vollständigkeit, Klarheit und sprachliche Qualität der von der KI generierten Antworten. Die Tester bewerten jede Antwort anhand einer Rubrik, um festzustellen, wo das Modell die erwartete Leistung erbringt und wo es verbessert werden muss. Ein Tester könnte beispielsweise eine Eingabeaufforderung wie „Welche Schritte sind erforderlich, um mein Passwort zurückzusetzen?“ eingeben und dann die Antwort der KI anhand ihrer Relevanz, Genauigkeit und Klarheit bewerten.
Warum sollten Sie Bewertung von Prompt und Antwort verwenden?
Es gibt drei Hauptgründe für die Verwendung von Bewertungen für Prompt und Antwort:
- Um die Qualität sicherzustellen. Die Bewertung stellt sicher, dass die von GenAI-Systemen erzeugten Antworten hohe Standards in Bezug auf Genauigkeit, Relevanz und Klarheit erfüllen und somit den Anwendern einen Mehrwert bieten.
- Um kontinuierliche Verbesserungen voranzutreiben. Feedback aus der Bewertung hilft Entwicklern, KI-Modelle zu verfeinern, ihre Leistung zu verbessern und Fehler im Laufe der Zeit zu reduzieren.
- Um Verantwortlichkeit zu demonstrieren. Diese Methode bietet einen transparenten Mechanismus zur Bewertung der KI-Leistung, der entscheidend für den Aufbau von Vertrauen bei Anwendern und Stakeholdern ist.
Vorbereitung auf die Bewertung von Prompt und und Antwort
Bevor Sie mit dem Testen beginnen können, müssen Sie ein Framework entwickeln, das definiert, welche Kriterien Sie bewerten und wie viel Gewicht sie jeweils tragen. Teams bewerten in der Regel Genauigkeit und Relevanz ebenso wie Kriterien wie Vollständigkeit, Klarheit, Sprache und Grammatik, Ton und Stil, Anpassungsfähigkeit und Fehlerbehandlung.
Ton und Stil sind entscheidend, um sicherzustellen, dass die KI auf die Zielgruppe und den Anwendungsfall abgestimmt ist – zum Beispiel die Beibehaltung eines formellen Tons in juristischen Anwendungen oder eines freundlichen Tons in Kundenservice-Bots.
Die Anpassungsfähigkeit misst, wie gut die KI ihre Antworten an den Anwenderkontext anpassen kann, beispielsweise durch nahtlose Bearbeitung von Folgefragen oder Klarstellungen. Genauigkeit und Relevanz tragen in der Regel das größte Gewicht und machen häufig etwa 60 Prozent oder mehr der Gesamtbewertung aus. Diese Betonung spiegelt ihre grundlegende Bedeutung für die Qualität und Korrektheit der generierten Antwort wider.
Eine übergeordnete Bewertungsrubrik zur Bewertung von Gen-KI-Prompts und -Antworten beschreibt die Kategorien, die Tester bewerten müssen und die Gewichtung jeder Kategorie. Dies ist ein Beispiel für ein übergeordnetes Framework:
- Genauigkeit (40 %) : Die Korrektheit der in der KI-Antwort bereitgestellten Informationen
- Relevanz (30 %) : Das Ausmaß, in dem die Antwort direkt auf die Eingabeaufforderung eingeht
- Vollständigkeit (15 %) : Der Grad, in dem die Antwort alle notwendigen Aspekte der Aufforderung abdeckt
- Klarheit (10%): Wie leicht die Antwort zu verstehen ist, einschließlich ihrer Struktur und Präsentation
- Sprache und Grammatik (5%): Die Korrektheit und Angemessenheit der Sprache, einschließlich Grammatik, Rechtschreibung und Zeichensetzung
Sie müssen auch eine detaillierte Bewertungsskala bereitstellen, die klar beschreibt, wie die Tester jedes Kriterium bewerten sollten.
Das Bewertungssystem – binär, 3-Punkte- oder 5-Punkte-Skala – hängt vom Grad der Spezifität oder Subjektivität der zu bewertenden Antworten im KI-System ab. Antworten mit einem höheren Grad an Subjektivität können auf einer 5-Punkte-Skala bewertet werden, solche mit mehr Spezifität könnten eine 3-Punkte-Skala verwenden, und solche, bei denen die Antwort richtig/falsch ist, sind binär. Hier ist ein Beispiel für die Bewertung der Genauigkeit mit einer 5-Punkte-Skala: Genauigkeit (40%)
- 5 (Ausgezeichnet): Die Antwort ist sachlich korrekt und ohne Fehler. Die Informationen sind korrekt und zuverlässig.
- 4 (Gut): Die Antwort ist größtenteils korrekt, mit geringfügigen sachlichen Fehlern oder Auslassungen.
- 3 (Befriedigend): Die Antwort enthält einige genaue Informationen, enthält jedoch auch erkennbare Fehler oder Auslassungen.
- 2 (Verbesserungsbedürftig): Die Antwort enthält erhebliche sachliche Fehler oder Auslassungen, daher sind die Informationen unzuverlässig.
- 1 (Mangelhaft): Die Antwort ist größtenteils ungenau, mit schwerwiegenden Fehlern, die irreführende oder falsche Informationen enthalten.
Wenn Sie eine 3-Punkte-Rubrik verwenden möchten, passen Sie einfach die Gewichtung an – hier ist ein Beispiel für eine 3-Punkte-Rubrik zur Bewertung der Klarheit. In diesem Fall wird jedes Kriterium auf einer Skala von 1 bis 3 bewertet und dann mit seinem Gewichtungs-Multiplikator multipliziert.Die mögliche Gesamtpunktzahl beträgt 100, genau wie bei der ursprünglichen 5-Punkte-Skala. Klarheit (10 %) Multiplikator 3,33 (Gewichtung 10 %, also 3 Punkte * 3,33 = 10 mögliche Punkte)
- 3 (Ausgezeichnet): Die Antwort ist sehr klar, gut strukturiert und leicht verständlich, ohne Mehrdeutigkeiten.
- 2 (Befriedigend): Die Antwort ist größtenteils klar, kann jedoch kleinere strukturelle oder Klarheitsprobleme aufweisen.
- 1 (Mangelhaft): Die Antwort ist unklar, ungeordnet oder schwer zu verstehen.
Bewertung von Antworten auf KI-Prompts
Wenn es Zeit für das Testen ist, teilen Sie dem Testteam die vollständige Bewertungsmatrix mit, damit es versteht, wie die Antworten zu bewerten sind. Sie sollten auch Anleitungen oder Vorgaben für die Art der Eingabeaufforderungen bereitstellen, die sie erstellen sollten. Darüber hinaus können Sie bei jedem Bewertungskriterium Kategorien für verschiedene Arten von Problemen angeben, um den Testern die Quantifizierung ihrer Bewertungen zu erleichtern.
Lassen Sie uns ein Beispiel durchgehen, das auf einem Kundenservice-Chatbot für eine Anwendung basiert, die Fahrzeugvermietungen anbietet. Wir bitten die Tester, sich auf einen bestimmten Anwendungsfall zu konzentrieren: Was passiert, wenn sich die Reisepläne eines Kunden ändern? Dann geben wir den Testern Anweisungen für die Art der Prompts, die sie eingeben sollen. „Die Fragen sollten sich auf Themen beziehen wie das Verfahren zur Änderung oder Verlängerung von Reservierungen, was passiert, wenn sich die Pläne ändern (wie bei einer Flugverspätung) und Stornierungsrichtlinien. Das Ziel ist es, sicherzustellen, dass der Chatbot in der Lage ist, die Optionen für Änderungen genau zu erklären und die Anwender über alle damit verbundenen Gebühren oder Strafen zu informieren.“
In diesem Fall werden die Tester die Antworten hinsichtlich Genauigkeit, Relevanz, Klarheit und Nützlichkeit auf einer fünfstufigen Skala (ausgezeichnet, gut, durchschnittlich, fair und mangelhaft) bewerten. Zusätzlich zu den Bewertungen können Tester auch Feedback zu jeder Antwort geben. So könnte das in der Praxis aussehen.
Prompt: Was passiert, wenn ich das Fahrzeug nicht zum geplanten Zeitpunkt zurückgeben kann?
Antwort: Wenn Sie das Fahrzeug nicht rechtzeitig zurückgeben können, müssen Sie so schnell wie möglich eine Verlängerung über die App beantragen. Wenn die Verlängerung abgelehnt wird oder nicht beantragt werden kann, müssen Sie das Fahrzeug zum geplanten Endzeitpunkt zurückgeben. Verspätete Rückgaben können zusätzliche Gebühren nach sich ziehen und Ihren Schutzplan ungültig machen. Bewertung des Testers:
- Genauigkeit = Durchschnitt. Teilweise bereitgestellte Informationen.
- Relevanz = Gut.
- Klarheit = Durchschnitt. Vage oder unklare Erklärung.
- Nützlichkeit = Mangelhaft.
Kommentar des Testers: Die Antwort hat mir nicht mitgeteilt, wo ich in der App eine Erweiterung beantragen kann. Ich war mir nicht sicher, was der Bot mit „wenn die Erweiterung nicht beantragt werden kann“ gemeint hat. Weil das Fahrzeug nach einer bestimmten Zeit von jemand anderem gebucht wurde? Weil ich keine Verbindung hatte und sie nicht beantragen konnte? Das war verwirrend.
Verwenden Sie Bewertungen, um zu ermitteln, wo das Modell weiter trainiert oder verfeinert werden muss.
Im Idealfall helfen Ihnen die Bewertungen dabei, Muster zur Aufdeckung von Bereichen zu identifizieren, in denen Sie mehr am Modell arbeiten müssen, um die Ergebnisse zu verbessern. Diese Muster können Ihrem Team auch dabei helfen, Schlüsselbereiche zu priorisieren, die behandelt werden müssen. Testerbewertungen können auch ein gemeinsames Framework für die Diskussion über Ergebnissen bieten und Gespräche zwischen Entwicklern, Produktmanagern und anderen Stakeholdern leiten. Die Nutzung von Feedback aus dem Bewertungsprozess zur Verfeinerung des KI-Modells und zur Verbesserung seiner Leistung bei zukünftigen Prompts ist für die andauernde Entwicklung unerlässlich.
Schritt für Schritt: Bewertung von Prompts und Antworten
1. Definieren Sie Ihr Framework:
Wählen Sie Kernkriterien aus und gewichten Sie diese prozentual nach ihrer Bedeutung für Ihren spezifischen Anwendungsfall.
2. Entwickeln Sie eine Bewertungsrubrik:
Wählen Sie eine Skala – binär, 3-Punkte oder 5-Punkte –, die klar beschreibt, wie Tester jedes Kriterium bewerten sollen, um Konsistenz zu gewährleisten.
3. Geben Sie Ihren Testern Orientierung:
Briefen Sie Ihr Testing-Team zu den Zielen und geben Sie „Seed-Prompts“ oder spezifische Anwendungsfälle vor, um deren Fokus zielgerichtet zu steuern.
4. Führen Sie den Test durch:
Tester geben Prompts in das KI-Modell ein, bewerten die Ergebnisse anhand Ihrer Rubrik und geben bei Bedarf Feedback.
5. Analysieren und iterieren:
Überprüfen Sie die Bewertungen, um Muster zu erkennen und die Ergebnisse zu verbessern. Nutzen Sie diese Erkenntnisse für das Fine-Tuning und die kontinuierliche Weiterentwicklung des Modells.
