{"id":155028,"date":"2025-01-16T08:31:28","date_gmt":"2025-01-16T13:31:28","guid":{"rendered":"https:\/\/www.applause.com\/blog\/evaluate-ai-model-quality-with-prompt-and-response-grading\/"},"modified":"2026-04-21T10:34:56","modified_gmt":"2026-04-21T14:34:56","slug":"evaluate-ai-model-quality-with-prompt-and-response-grading","status":"publish","type":"post","link":"https:\/\/www.applause.com\/de\/blog\/evaluate-ai-model-quality-with-prompt-and-response-grading\/","title":{"rendered":"Bewerten Sie die Qualit\u00e4t von KI-Modellen mit Bewertungen von Prompts und Antworten."},"content":{"rendered":"<div class=\"et_pb_section_0 et_pb_section et_section_regular et_block_section\">\r\n<div class=\"et_pb_row_0 et_pb_row et_block_row\">\r\n<div class=\"et_pb_column_0 et_pb_column et_pb_column_4_4 et-last-child et_block_column et_pb_css_mix_blend_mode_passthrough\">\r\n<div class=\"et_pb_text_0 et_pb_text et_pb_bg_layout_light et_pb_module et_block_module preset--group--divi-text--divi-font-body--default preset--group--divi-text--divi-font-body--h19rs5u--default preset--group--divi-text--divi-font-body--h1yjkjr--default preset--module--divi-text--4564d33f-bb24-4931-8445-a739e42249ca\"><div class=\"et_pb_text_inner\"><h1>Bewerten Sie die Qualit\u00e4t von KI-Modellen mit Bewertungen von Prompts und Antworten.<\/h1>\n<p>In einem k\u00fcrzlich abgehaltenen Webinar \u00fcber Best Practices f\u00fcr das Testen von KI-Anwendungen erw\u00e4hnte ich die Prompt- und Antwortbewertung als eine M\u00f6glichkeit zur Verbesserung der Modellqualit\u00e4t. W\u00e4hrend des Webinars hatte ich keine Zeit, n\u00e4her darauf einzugehen, aber in diesem Beitrag m\u00f6chte ich das Thema weiter vertiefen. Lesen Sie weiter, um zu erfahren, was Prompt-und-Antwort-Benotung ist, warum sie verwendet wird und wie diese Art von Tests durchgef\u00fchrt wird. <\/p>\n<h2>Was ist die Bewertung von Prompt und Antwort?<\/h2>\n<p>Die Bewertung von Prompts und Antworten ist ein systematischer Ansatz zur Bewertung der Qualit\u00e4t und Genauigkeit von Ausgaben generativer KI (Gen AI) als Reaktion auf bestimmte Benutzereingaben. Bei der Bewertung werden in der Regel mehrere Faktoren ber\u00fccksichtigt, darunter Relevanz, Genauigkeit, Vollst\u00e4ndigkeit, Klarheit und sprachliche Qualit\u00e4t der von der KI generierten Antworten. Die Tester bewerten jede Antwort anhand einer Rubrik, um festzustellen, wo das Modell die erwartete Leistung erbringt und wo es verbessert werden muss. Ein Tester k\u00f6nnte beispielsweise eine Eingabeaufforderung wie \u201eWelche Schritte sind erforderlich, um mein Passwort zur\u00fcckzusetzen?\u201c eingeben und dann die Antwort der KI anhand ihrer Relevanz, Genauigkeit und Klarheit bewerten. <\/p>\n<h2>Warum sollten Sie Bewertung von Prompt und Antwort verwenden?<\/h2>\n<p>Es gibt drei Hauptgr\u00fcnde f\u00fcr die Verwendung von Bewertungen f\u00fcr Prompt und Antwort:<\/p>\n<ol>\n<li><strong>Um die Qualit\u00e4t sicherzustellen.<\/strong> Die Bewertung stellt sicher, dass die von GenAI-Systemen erzeugten Antworten hohe Standards in Bezug auf Genauigkeit, Relevanz und Klarheit erf\u00fcllen und somit den Anwendern einen Mehrwert bieten. <\/li>\n<li><strong>Um kontinuierliche Verbesserungen voranzutreiben.<\/strong> Feedback aus der Bewertung hilft Entwicklern, KI-Modelle zu verfeinern, ihre Leistung zu verbessern und Fehler im Laufe der Zeit zu reduzieren. <\/li>\n<li><strong>Um Verantwortlichkeit zu demonstrieren.<\/strong> Diese Methode bietet einen transparenten Mechanismus zur Bewertung der KI-Leistung, der entscheidend f\u00fcr den Aufbau von Vertrauen bei Anwendern und Stakeholdern ist. <\/li>\n<\/ol>\n<h2>Vorbereitung auf die Bewertung von Prompt und und Antwort<\/h2>\n<p>Bevor Sie mit dem Testen beginnen k\u00f6nnen, m\u00fcssen Sie ein Framework entwickeln, das definiert, welche Kriterien Sie bewerten und wie viel Gewicht sie jeweils tragen. Teams bewerten in der Regel Genauigkeit und Relevanz ebenso wie Kriterien wie Vollst\u00e4ndigkeit, Klarheit, Sprache und Grammatik, Ton und Stil, Anpassungsf\u00e4higkeit und Fehlerbehandlung.<\/p>\n<p>Ton und Stil sind entscheidend, um sicherzustellen, dass die KI auf die Zielgruppe und den Anwendungsfall abgestimmt ist \u2013 zum Beispiel die Beibehaltung eines formellen Tons in juristischen Anwendungen oder eines freundlichen Tons in Kundenservice-Bots.<br \/>\nDie Anpassungsf\u00e4higkeit misst, wie gut die KI ihre Antworten an den Anwenderkontext anpassen kann, beispielsweise durch nahtlose Bearbeitung von Folgefragen oder Klarstellungen. Genauigkeit und Relevanz tragen in der Regel das gr\u00f6\u00dfte Gewicht und machen h\u00e4ufig etwa 60 Prozent oder mehr der Gesamtbewertung aus. Diese Betonung spiegelt ihre grundlegende Bedeutung f\u00fcr die Qualit\u00e4t und Korrektheit der generierten Antwort wider.<\/p>\n<p>Eine \u00fcbergeordnete Bewertungsrubrik zur Bewertung von Gen-KI-Prompts und -Antworten beschreibt die Kategorien, die Tester bewerten m\u00fcssen und die Gewichtung jeder Kategorie. Dies ist ein Beispiel f\u00fcr ein \u00fcbergeordnetes Framework:<\/p>\n<ul>\n<li><strong>Genauigkeit<\/strong> (40 %) : Die Korrektheit der in der KI-Antwort bereitgestellten Informationen<\/li>\n<li><strong>Relevanz<\/strong> (30 %) : Das Ausma\u00df, in dem die Antwort direkt auf die Eingabeaufforderung eingeht <\/li>\n<li><strong>Vollst\u00e4ndigkeit<\/strong> (15 %) : Der Grad, in dem die Antwort alle notwendigen Aspekte der Aufforderung abdeckt<\/li>\n<li><strong>Klarheit<\/strong> (10%): Wie leicht die Antwort zu verstehen ist, einschlie\u00dflich ihrer Struktur und Pr\u00e4sentation<\/li>\n<li><strong>Sprache und Grammatik<\/strong> (5%): Die Korrektheit und Angemessenheit der Sprache, einschlie\u00dflich Grammatik, Rechtschreibung und Zeichensetzung<\/li>\n<\/ul>\n<p>Sie m\u00fcssen auch eine detaillierte Bewertungsskala bereitstellen, die klar beschreibt, wie die Tester jedes Kriterium bewerten sollten.<br \/>\nDas Bewertungssystem \u2013 bin\u00e4r, 3-Punkte- oder 5-Punkte-Skala \u2013 h\u00e4ngt vom Grad der Spezifit\u00e4t oder Subjektivit\u00e4t der zu bewertenden Antworten im KI-System ab. Antworten mit einem h\u00f6heren Grad an Subjektivit\u00e4t k\u00f6nnen auf einer 5-Punkte-Skala bewertet werden, solche mit mehr Spezifit\u00e4t k\u00f6nnten eine 3-Punkte-Skala verwenden, und solche, bei denen die Antwort richtig\/falsch ist, sind bin\u00e4r. Hier ist ein Beispiel f\u00fcr die Bewertung der Genauigkeit mit einer 5-Punkte-Skala: <strong>Genauigkeit (40%)<\/strong><\/p>\n<ul>\n<li>5 (Ausgezeichnet): Die Antwort ist sachlich korrekt und ohne Fehler. Die Informationen sind korrekt und zuverl\u00e4ssig.<\/li>\n<li>4 (Gut): Die Antwort ist gr\u00f6\u00dftenteils korrekt, mit geringf\u00fcgigen sachlichen Fehlern oder Auslassungen.<\/li>\n<li>3 (Befriedigend): Die Antwort enth\u00e4lt einige genaue Informationen, enth\u00e4lt jedoch auch erkennbare Fehler oder Auslassungen.<\/li>\n<li>2 (Verbesserungsbed\u00fcrftig): Die Antwort enth\u00e4lt erhebliche sachliche Fehler oder Auslassungen, daher sind die Informationen unzuverl\u00e4ssig.<\/li>\n<li>1 (Mangelhaft): Die Antwort ist gr\u00f6\u00dftenteils ungenau, mit schwerwiegenden Fehlern, die irref\u00fchrende oder falsche Informationen enthalten.<\/li>\n<\/ul>\n<p>Wenn Sie eine 3-Punkte-Rubrik verwenden m\u00f6chten, passen Sie einfach die Gewichtung an \u2013 hier ist ein Beispiel f\u00fcr eine 3-Punkte-Rubrik zur Bewertung der Klarheit. In diesem Fall wird jedes Kriterium auf einer Skala von 1 bis 3 bewertet und dann mit seinem Gewichtungs-Multiplikator multipliziert.Die m\u00f6gliche Gesamtpunktzahl betr\u00e4gt 100, genau wie bei der urspr\u00fcnglichen 5-Punkte-Skala. <strong> Klarheit (10 %) Multiplikator 3,33 (Gewichtung 10 %, also 3 Punkte * 3,33 = 10 m\u00f6gliche Punkte) <\/strong><\/p>\n<ul>\n<li>3 (Ausgezeichnet): Die Antwort ist sehr klar, gut strukturiert und leicht verst\u00e4ndlich, ohne Mehrdeutigkeiten. <\/li>\n<li>2 (Befriedigend): Die Antwort ist gr\u00f6\u00dftenteils klar, kann jedoch kleinere strukturelle oder Klarheitsprobleme aufweisen. <\/li>\n<li>1 (Mangelhaft): Die Antwort ist unklar, ungeordnet oder schwer zu verstehen. <\/li>\n<\/ul>\n<h2>Bewertung von Antworten auf KI-Prompts<\/h2>\n<p>Wenn es Zeit f\u00fcr das Testen ist, teilen Sie dem Testteam die vollst\u00e4ndige Bewertungsmatrix mit, damit es versteht, wie die Antworten zu bewerten sind. Sie sollten auch Anleitungen oder Vorgaben f\u00fcr die Art der Eingabeaufforderungen bereitstellen, die sie erstellen sollten. Dar\u00fcber hinaus k\u00f6nnen Sie bei jedem Bewertungskriterium Kategorien f\u00fcr verschiedene Arten von Problemen angeben, um den Testern die Quantifizierung ihrer Bewertungen zu erleichtern. <\/p>\n<p>Lassen Sie uns ein Beispiel durchgehen, das auf einem Kundenservice-Chatbot f\u00fcr eine Anwendung basiert, die Fahrzeugvermietungen anbietet. Wir bitten die Tester, sich auf einen bestimmten Anwendungsfall zu konzentrieren: Was passiert, wenn sich die Reisepl\u00e4ne eines Kunden \u00e4ndern? Dann geben wir den Testern Anweisungen f\u00fcr die Art der Prompts, die sie eingeben sollen. \u201eDie Fragen sollten sich auf Themen beziehen wie das Verfahren zur \u00c4nderung oder Verl\u00e4ngerung von Reservierungen, was passiert, wenn sich die Pl\u00e4ne \u00e4ndern (wie bei einer Flugversp\u00e4tung) und Stornierungsrichtlinien. Das Ziel ist es, sicherzustellen, dass der Chatbot in der Lage ist, die Optionen f\u00fcr \u00c4nderungen genau zu erkl\u00e4ren und die Anwender \u00fcber alle damit verbundenen Geb\u00fchren oder Strafen zu informieren.\u201c <\/p>\n<p>In diesem Fall werden die Tester die Antworten hinsichtlich Genauigkeit, Relevanz, Klarheit und N\u00fctzlichkeit auf einer f\u00fcnfstufigen Skala (ausgezeichnet, gut, durchschnittlich, fair und mangelhaft) bewerten. Zus\u00e4tzlich zu den Bewertungen k\u00f6nnen Tester auch Feedback zu jeder Antwort geben. So k\u00f6nnte das in der Praxis aussehen.<\/p>\n<p>Prompt: Was passiert, wenn ich das Fahrzeug nicht zum geplanten Zeitpunkt zur\u00fcckgeben kann?<\/p>\n<p>Antwort: Wenn Sie das Fahrzeug nicht rechtzeitig zur\u00fcckgeben k\u00f6nnen, m\u00fcssen Sie so schnell wie m\u00f6glich eine Verl\u00e4ngerung \u00fcber die App beantragen. Wenn die Verl\u00e4ngerung abgelehnt wird oder nicht beantragt werden kann, m\u00fcssen Sie das Fahrzeug zum geplanten Endzeitpunkt zur\u00fcckgeben. Versp\u00e4tete R\u00fcckgaben k\u00f6nnen zus\u00e4tzliche Geb\u00fchren nach sich ziehen und Ihren Schutzplan ung\u00fcltig machen.  <strong>Bewertung des Testers: <\/strong><\/p>\n<ul>\n<li>Genauigkeit = Durchschnitt. Teilweise bereitgestellte Informationen.<\/li>\n<li>Relevanz = Gut.<\/li>\n<li>Klarheit = Durchschnitt. Vage oder unklare Erkl\u00e4rung.<\/li>\n<li>N\u00fctzlichkeit = Mangelhaft.<\/li>\n<\/ul>\n<p>Kommentar des Testers: Die Antwort hat mir nicht mitgeteilt, wo ich in der App eine Erweiterung beantragen kann. Ich war mir nicht sicher, was der Bot mit \u201ewenn die Erweiterung nicht beantragt werden kann\u201c gemeint hat. Weil das Fahrzeug nach einer bestimmten Zeit von jemand anderem gebucht wurde? Weil ich keine Verbindung hatte und sie nicht beantragen konnte? Das war verwirrend.<\/p>\n<h2>Verwenden Sie Bewertungen, um zu ermitteln, wo das Modell weiter trainiert oder verfeinert werden muss.<\/h2>\n<p>Im Idealfall helfen Ihnen die Bewertungen dabei, Muster zur Aufdeckung von Bereichen zu identifizieren, in denen Sie mehr am Modell arbeiten m\u00fcssen, um die Ergebnisse zu verbessern. Diese Muster k\u00f6nnen Ihrem Team auch dabei helfen, Schl\u00fcsselbereiche zu priorisieren, die behandelt werden m\u00fcssen. Testerbewertungen k\u00f6nnen auch ein gemeinsames Framework f\u00fcr die Diskussion \u00fcber Ergebnissen bieten und Gespr\u00e4che zwischen Entwicklern, Produktmanagern und anderen Stakeholdern leiten. Die Nutzung von Feedback aus dem Bewertungsprozess zur Verfeinerung des KI-Modells und zur Verbesserung seiner Leistung bei zuk\u00fcnftigen Prompts ist f\u00fcr die andauernde Entwicklung unerl\u00e4sslich.<\/p>\n<\/div><\/div>\r\n\r\n<div class=\"et_pb_text_1 et_pb_text et_pb_bg_layout_light et_pb_module et_flex_module preset--group--divi-text--divi-font-body--default preset--group--divi-text--divi-font-body--h19rs5u--default preset--group--divi-text--divi-font-body--h1yjkjr--default preset--module--divi-text--default\"><div class=\"et_pb_text_inner\"><h2>Schritt f\u00fcr Schritt: Bewertung von Prompts und Antworten<\/h2>\n<h3>1. Definieren Sie Ihr Framework:<\/h3>\n<p>W\u00e4hlen Sie Kernkriterien aus und gewichten Sie diese prozentual nach ihrer Bedeutung f\u00fcr Ihren spezifischen Anwendungsfall.<\/p>\n<h3>2. Entwickeln Sie eine Bewertungsrubrik:<\/h3>\n<p>W\u00e4hlen Sie eine Skala \u2013 bin\u00e4r, 3-Punkte oder 5-Punkte \u2013, die klar beschreibt, wie Tester jedes Kriterium bewerten sollen, um Konsistenz zu gew\u00e4hrleisten.<\/p>\n<h3>3. Geben Sie Ihren Testern Orientierung:<\/h3>\n<p>Briefen Sie Ihr Testing-Team zu den Zielen und geben Sie \u201eSeed-Prompts\u201c oder spezifische Anwendungsf\u00e4lle vor, um deren Fokus zielgerichtet zu steuern.<\/p>\n<h3>4. F\u00fchren Sie den Test durch:<\/h3>\n<p>Tester geben Prompts in das KI-Modell ein, bewerten die Ergebnisse anhand Ihrer Rubrik und geben bei Bedarf Feedback.<\/p>\n<h3>5. Analysieren und iterieren: <\/h3>\n<p>\u00dcberpr\u00fcfen Sie die Bewertungen, um Muster zu erkennen und die Ergebnisse zu verbessern. Nutzen Sie diese Erkenntnisse f\u00fcr das Fine-Tuning und die kontinuierliche Weiterentwicklung des Modells.<\/p>\n<\/div><\/div>\r\n<\/div>\r\n<\/div>\r\n<\/div>","protected":false},"excerpt":{"rendered":"<p>Erfahren Sie, wie Sie die Genauigkeit und Qualit\u00e4t Ihrer generativen KI-Modelle durch die Bewertung von Prompts und Antworten verbessern k\u00f6nnen. <\/p>\n","protected":false},"author":25,"featured_media":135753,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[282],"tags":[],"resource-industry":[],"resource-solution":[1180],"resources\/types":[1244],"class_list":["post-155028","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-unkategorisiert","resource-solution-kuenstliche-intelligenz-trainieren-testen","resource-type-blogs-de"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/posts\/155028","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/users\/25"}],"replies":[{"embeddable":true,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/comments?post=155028"}],"version-history":[{"count":4,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/posts\/155028\/revisions"}],"predecessor-version":[{"id":155033,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/posts\/155028\/revisions\/155033"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/media\/135753"}],"wp:attachment":[{"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/media?parent=155028"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/categories?post=155028"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/tags?post=155028"},{"taxonomy":"resource-industry","embeddable":true,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/resource-industry?post=155028"},{"taxonomy":"resource-solution","embeddable":true,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/resource-solution?post=155028"},{"taxonomy":"resource-type","embeddable":true,"href":"https:\/\/www.applause.com\/de\/wp-json\/wp\/v2\/resources\/types?post=155028"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}