{"id":155034,"date":"2025-01-16T08:31:28","date_gmt":"2025-01-16T13:31:28","guid":{"rendered":"https:\/\/www.applause.com\/blog\/evaluate-ai-model-quality-with-prompt-and-response-grading\/"},"modified":"2026-04-21T10:36:34","modified_gmt":"2026-04-21T14:36:34","slug":"evaluate-ai-model-quality-with-prompt-and-response-grading","status":"publish","type":"post","link":"https:\/\/www.applause.com\/fr\/blog\/evaluate-ai-model-quality-with-prompt-and-response-grading\/","title":{"rendered":"\u00c9valuez la qualit\u00e9 des mod\u00e8les d&rsquo;IA gr\u00e2ce \u00e0 la notation des invitations et des r\u00e9ponses"},"content":{"rendered":"\r\n\r\n<div class=\"et_pb_section_0 et_pb_section et_section_regular et_block_section\">\r\n\r\n<div class=\"et_pb_row_0 et_pb_row et_block_row\">\r\n\r\n<div class=\"et_pb_column_0 et_pb_column et_pb_column_4_4 et-last-child et_block_column et_pb_css_mix_blend_mode_passthrough\">\r\n\r\n<div class=\"et_pb_text_0 et_pb_text et_pb_bg_layout_light et_pb_module et_block_module preset--group--divi-text--divi-font-body--default preset--group--divi-text--divi-font-body--h19rs5u--default preset--group--divi-text--divi-font-body--h1yjkjr--default preset--module--divi-text--4564d33f-bb24-4931-8445-a739e42249ca\"><div class=\"et_pb_text_inner\"><h1>\u00c9valuez la qualit\u00e9 des mod\u00e8les d'IA gr\u00e2ce \u00e0 la notation des invitations et des r\u00e9ponses<\/h1>\n<p>Lors d\u2019un r\u00e9cent webinaire sur les meilleures pratiques pour les tests des applications d\u2019IA, j\u2019ai mentionn\u00e9 l\u2019\u00e9valuation des invites et des r\u00e9ponses comme moyen d\u2019am\u00e9liorer la qualit\u00e9 du mod\u00e8le. Bien que je n\u2019aie pas eu le temps d\u2019entrer dans les d\u00e9tails pendant le webinaire, j\u2019ai pens\u00e9 l\u2019aborder davantage dans cet article. Lisez la suite pour d\u00e9couvrir ce qu'est la notation des invites et des r\u00e9ponses, pourquoi l'utiliser et comment r\u00e9aliser ce type de test. \u00a0<\/p>\n<h2>Qu'est-ce que la notation des invites et des r\u00e9ponses ?<\/h2>\n<p>L\u2019\u00e9valuation des invites et des r\u00e9ponses est une m\u00e9thode syst\u00e9matique visant \u00e0 mesurer la qualit\u00e9 et la pr\u00e9cision des r\u00e9sultats de l\u2019IA g\u00e9n\u00e9rative en r\u00e9ponse \u00e0 des entr\u00e9es sp\u00e9cifiques de l\u2019utilisateur. L\u2019\u00e9valuation prend g\u00e9n\u00e9ralement en compte plusieurs facteurs, tels que la pertinence, l\u2019exactitude, l\u2019exhaustivit\u00e9, la clart\u00e9 et la qualit\u00e9 linguistique des r\u00e9ponses g\u00e9n\u00e9r\u00e9es par l\u2019IA. Les testeurs \u00e9valuent chaque r\u00e9ponse selon une grille d'\u00e9valuation afin d'identifier les points o\u00f9 le mod\u00e8le fonctionne comme pr\u00e9vu et ceux o\u00f9 il doit \u00eatre am\u00e9lior\u00e9. Par exemple, un testeur peut fournir une invite telle que : \u00ab Quelles sont les \u00e9tapes pour r\u00e9initialiser mon mot de passe ? \u00bb puis \u00e9valuer la r\u00e9ponse de l'IA en fonction de sa pertinence, de son exactitude et de sa clart\u00e9.\u00a0<\/p>\n<h2>Pourquoi utiliser la notation des invites et des r\u00e9ponses ?<\/h2>\n<p>Il y a trois raisons principales d'utiliser la notation des invites et r\u00e9ponses :<\/p>\n<ol>\n<li><strong>Pour garantir la qualit\u00e9.<\/strong> L'\u00e9valuation garantit que les r\u00e9ponses produites par les syst\u00e8mes d'IA g\u00e9n\u00e9rative respectent des normes \u00e9lev\u00e9es d'exactitude, de pertinence et de clart\u00e9, apportant ainsi une valeur ajout\u00e9e aux utilisateurs.<\/li>\n<li><strong>Pour favoriser l'am\u00e9lioration continue.<\/strong> Les avis de la notation aident les d\u00e9veloppeurs \u00e0 affiner les mod\u00e8les d\u2019IA, \u00e0 am\u00e9liorer leurs performances et \u00e0 r\u00e9duire les erreurs au fil du temps.<\/li>\n<li><strong>Pour d\u00e9montrer la responsabilit\u00e9.<\/strong> Cette m\u00e9thode fournit un m\u00e9canisme transparent pour \u00e9valuer les performances de l\u2019IA, ce qui est crucial pour instaurer la confiance aupr\u00e8s des utilisateurs et des parties prenantes.<\/li>\n<\/ol>\n<h2>Pr\u00e9paration \u00e0 l'\u00e9valuation des invites et des r\u00e9ponses<\/h2>\n<p>Avant de pouvoir commencer les tests, vous devez d\u00e9velopper un framework d'\u00e9valuation qui d\u00e9finit les crit\u00e8res que vous \u00e9valuez et leur importance. Les \u00e9quipes \u00e9valuent g\u00e9n\u00e9ralement l'exactitude et la pertinence, ainsi que des crit\u00e8res tels que l'exhaustivit\u00e9, la clart\u00e9, la langue et la grammaire, le ton et le style, l'adaptabilit\u00e9 et la gestion des erreurs.\u00a0<\/p>\n<p>Le ton et le style sont cruciaux pour s\u2019assurer que l\u2019IA s\u2019aligne sur le public cible et le cas d\u2019utilisation, par exemple en maintenant un ton formel dans les applications juridiques ou un ton amical pour les bots de service client. L\u2019adaptabilit\u00e9 \u00e9value dans quelle mesure l'IA peut ajuster ses r\u00e9ponses en fonction du contexte de l\u2019utilisateur, par exemple en traitant sans heurt les questions de suivi ou les demandes de clarification. L\u2019exactitude et la pertinence ont g\u00e9n\u00e9ralement le plus d\u2019importance, repr\u00e9sentant souvent plus de 60 % du score global d\u2019\u00e9valuation. Cet accent refl\u00e8te leur importance fondamentale pour la qualit\u00e9 et l'exactitude de la r\u00e9ponse g\u00e9n\u00e9r\u00e9e.<\/p>\n<p>Une rubrique de notation d\u00e9taill\u00e9e pour \u00e9valuer les invites et les r\u00e9ponses de l'IA g\u00e9n\u00e9rative d\u00e9crit les cat\u00e9gories que les testeurs doivent \u00e9valuer et les pond\u00e9rations de chaque cat\u00e9gorie. Voici un exemple de framework d\u00e9taill\u00e9 :<\/p>\n<ul>\n<li><strong>Pr\u00e9cision<\/strong> (40 %) : l\u2019exactitude des informations fournies dans la r\u00e9ponse de l\u2019IA<\/li>\n<li><strong>Pertinence<\/strong> (30 %) : la r\u00e9ponse r\u00e9pond directement \u00e0 l'invite ou non<\/li>\n<li><strong>Exhaustivit\u00e9<\/strong> (15 %) : la r\u00e9ponse couvre tous les aspects n\u00e9cessaires de l'invite ou non<\/li>\n<li><strong>Clart\u00e9<\/strong> (10 %) : la facilit\u00e9 avec laquelle la r\u00e9ponse est compr\u00e9hensible, y compris sa structure et sa pr\u00e9sentation<\/li>\n<li><strong>Langue et grammaire<\/strong> (5 %) : l'exactitude et la pertinence de la langue, y compris la grammaire, l'orthographe et la ponctuation<\/li>\n<\/ul>\n<p>Vous devrez \u00e9galement fournir une grille de notation d\u00e9taill\u00e9e d\u00e9crivant clairement comment les testeurs doivent \u00e9valuer chaque crit\u00e8re. Le syst\u00e8me de notation (binaire, \u00e0 3 ou 5 points) d\u00e9pend du degr\u00e9 de sp\u00e9cificit\u00e9 ou de subjectivit\u00e9 des r\u00e9ponses du syst\u00e8me d'IA \u00e9valu\u00e9. Les r\u00e9ponses qui ont un niveau de subjectivit\u00e9 plus \u00e9lev\u00e9 peuvent \u00eatre \u00e9valu\u00e9es sur une \u00e9chelle de 5 points ; celles qui sont plus sp\u00e9cifiques peuvent \u00eatre \u00e9valu\u00e9es sur une \u00e9chelle de 3 points et celles o\u00f9 la r\u00e9ponse est juste\/fausse peuvent \u00eatre \u00e9valu\u00e9es sur une \u00e9chelle binaire. Voici un exemple de grille d'\u00e9valuation de la pr\u00e9cision sur une \u00e9chelle de 5 points :<\/p>\n<p><strong>Pr\u00e9cision (40 %)<\/strong><\/p>\n<ul>\n<li>5 (Excellent) : la r\u00e9ponse est factuellement exacte et ne comporte aucune erreur. Les informations sont correctes et fiables.<\/li>\n<li>4 (Bon) : la r\u00e9ponse est en grande partie exacte, avec des erreurs factuelles mineures ou des omissions.<\/li>\n<li>3 (Satisfaisant) : la r\u00e9ponse contient des informations exactes, mais aussi des erreurs ou des omissions notables.<\/li>\n<li>2 (Am\u00e9lioration requise) : la r\u00e9ponse pr\u00e9sente des erreurs factuelles significatives ou des omissions, rendant l'information peu fiable.<\/li>\n<li>1 (m\u00e9diocre) : la r\u00e9ponse est en grande partie inexacte, avec des erreurs majeures, fournissant des informations trompeuses ou erron\u00e9es.<\/li>\n<\/ul>\n<p>Si vous souhaitiez utiliser une grille d'\u00e9valuation \u00e0 trois points, il vous suffirait d'ajuster la pond\u00e9ration. Voici un exemple de grille \u00e0 trois points pour \u00e9valuer la clart\u00e9. Dans ce cas, chaque crit\u00e8re est not\u00e9 sur une \u00e9chelle de 1 \u00e0 3, puis multipli\u00e9 par son coefficient de pond\u00e9ration. Le score total possible est de 100, tout comme sur l'\u00e9chelle originale \u00e0 5 points.\u00a0<\/p>\n<p><strong>Clart\u00e9 (10 %) Multiplicateur 3,33 (10 %, donc 3 points * 3,33 = 10 points possibles) <\/strong><\/p>\n<ul>\n<li>3 (Excellent) : la r\u00e9ponse est tr\u00e8s claire, bien structur\u00e9e et facile \u00e0 comprendre, sans ambigu\u00eft\u00e9.<\/li>\n<li>2 (Satisfaisant) : la r\u00e9ponse est assez claire, mais elle peut pr\u00e9senter des probl\u00e8mes mineurs de structure ou de clart\u00e9.<\/li>\n<li>1 (m\u00e9diocre) : la r\u00e9ponse est peu claire, d\u00e9sorganis\u00e9e ou difficile \u00e0 comprendre.<\/li>\n<\/ul>\n<h2>\u00c9valuer les r\u00e9ponses aux invites de l\u2019IA<\/h2>\n<p>Au moment du test, vous partagerez la grille d\u2019\u00e9valuation compl\u00e8te avec l\u2019\u00e9quipe de test afin qu\u2019elle comprenne comment noter les r\u00e9ponses. Vous devrez \u00e9galement fournir des conseils ou des param\u00e8tres concernant les types d'invites \u00e0 cr\u00e9er. En outre, vous pouvez fournir des cat\u00e9gories pour diff\u00e9rents types de probl\u00e8mes dans chaque crit\u00e8re d'\u00e9valuation afin d'aider les testeurs \u00e0 quantifier leurs \u00e9valuations.<\/p>\n<p>Prenons l\u2019exemple d\u2019un chatbot de service client pour une application de location de v\u00e9hicules. Nous demanderons aux testeurs de se concentrer sur un cas d\u2019utilisation sp\u00e9cifique : Que faire si les plans de voyage d\u2019un client changent ? Ensuite, nous fournirons aux testeurs des instructions sur les types de questions qu\u2019ils doivent poser. \u00ab Les questions doivent aborder des sujets tels que le processus de modification ou de prolongation des r\u00e9servations, ce qui se passe si les plans changent (comme un retard de vol), et les politiques d\u2019annulation. L\u2019objectif est de s\u2019assurer que le chatbot est capable d\u2019expliquer avec pr\u00e9cision les options de modification et d\u2019informer les utilisateurs des frais ou p\u00e9nalit\u00e9s associ\u00e9s. \u00bb\u00a0<\/p>\n<p>Dans ce cas, les testeurs \u00e9valueront la pr\u00e9cision, la pertinence, la clart\u00e9 et l'utilit\u00e9 des r\u00e9ponses sur une \u00e9chelle de cinq points (excellent, bon, moyen, passable et m\u00e9diocre). En plus des \u00e9valuations, les testeurs peuvent fournir des avis sur chaque r\u00e9ponse. Voici \u00e0 quoi cela pourrait ressembler en pratique.\u00a0<\/p>\n<p>Demande : Que se passe-t-il si je ne peux pas restituer le v\u00e9hicule \u00e0 l\u2019heure pr\u00e9vue ?<\/p>\n<p>R\u00e9ponse : Si vous ne pouvez pas rendre le v\u00e9hicule \u00e0 temps, vous devez demander une prolongation via l\u2019application d\u00e8s que possible. Si la prolongation est refus\u00e9e ou ne peut pas \u00eatre demand\u00e9e, vous devez restituer le v\u00e9hicule \u00e0 l\u2019heure de fin pr\u00e9vue. Les retours tardifs peuvent entra\u00eener des frais suppl\u00e9mentaires et l'annulation de votre assurance.<\/p>\n<p>\u00c9valuation du testeur :<\/p>\n<ul>\n<li>Pr\u00e9cision = moyenne. Informations partielles fournies.<\/li>\n<li>Pertinence = Bonne.<\/li>\n<li>Clart\u00e9 = Moyenne. Explication vague ou peu claire.<\/li>\n<li>Utilit\u00e9 = m\u00e9diocre.<\/li>\n<\/ul>\n<p>Commentaires du testeur : la r\u00e9ponse ne m'a pas indiqu\u00e9 o\u00f9 aller dans l'application pour demander une extension. Je n\u2019\u00e9tais pas s\u00fbr de ce que le bot voulait dire par \u00ab si l\u2019extension ne peut pas \u00eatre demand\u00e9e \u00bb. Est-ce d\u00fb \u00e0 un probl\u00e8me avec l\u2019application ? Est-ce que le v\u00e9hicule a \u00e9t\u00e9 r\u00e9serv\u00e9 par quelqu'un d'autre \u00e0 partir d\u2019une certaine heure ? Est-ce que je n'avais pas de connectivit\u00e9 et que je ne pouvais donc pas la demander ? \u00c7a pr\u00eatait \u00e0 confusion.<\/p>\n<h2>Utilisez les notes pour identifier les domaines dans lesquels le mod\u00e8le doit \u00eatre approfondi ou affin\u00e9<\/h2>\n<p>Id\u00e9alement, les notes vous aideront \u00e0 identifier des tendances r\u00e9v\u00e9lant les domaines du mod\u00e8le sur lesquels vous devez encore travailler pour am\u00e9liorer les r\u00e9sultats. Ces tendances peuvent \u00e9galement aider votre \u00e9quipe \u00e0 hi\u00e9rarchiser les domaines cl\u00e9s \u00e0 traiter. Les \u00e9valuations des testeurs peuvent \u00e9galement fournir un cadre commun pour discuter des r\u00e9sultats et guider les \u00e9changes entre les d\u00e9veloppeurs, les chefs de produit et les autres parties prenantes. Utiliser les avis issus du processus de notation pour affiner le mod\u00e8le d'IA et am\u00e9liorer ses performances lors des futures sollicitations est essentiel au d\u00e9veloppement continu.<\/p>\n<\/div><\/div>\r\n\r\n<div class=\"et_pb_text_1 et_pb_text et_pb_bg_layout_light et_pb_module et_flex_module preset--group--divi-text--divi-font-body--default preset--group--divi-text--divi-font-body--h19rs5u--default preset--group--divi-text--divi-font-body--h1yjkjr--default preset--module--divi-text--default\"><div class=\"et_pb_text_inner\"><h2>Pas \u00e0 pas : ex\u00e9cuter la notation des invites et des r\u00e9ponses<\/h2>\n<h3>1. D\u00e9finissez votre framework :<\/h3>\n<p>S\u00e9lectionnez des crit\u00e8res de base et attribuez des pond\u00e9rations \u00e0 chacun en fonction de leur importance dans votre cas d'utilisation sp\u00e9cifique.<\/p>\n<h3>2. \u00c9laborez une grille d'\u00e9valuation :<\/h3>\n<p>Choisissez une \u00e9chelle binaire, \u00e0 3 ou 5 points, qui pr\u00e9cise clairement comment les testeurs doivent \u00e9valuer chaque crit\u00e8re afin de garantir la coh\u00e9rence.<\/p>\n<h3>3. Fournissez des conseils aux testeurs :<\/h3>\n<p>Informez votre \u00e9quipe de test des objectifs et fournissez des \u00ab amorces \u00bb ou des cas d\u2019utilisation sp\u00e9cifiques pour concentrer leurs efforts.<\/p>\n<h3>4. Ex\u00e9cutez le test :<\/h3>\n<p>Les testeurs saisissent des invites dans le mod\u00e8le d'intelligence artificielle (IA) et notent les r\u00e9sultats obtenus selon votre grille d'\u00e9valuation, et fournissent des avis lorsque n\u00e9cessaire.<\/p>\n<h3>5. Analysez et it\u00e9rez :<\/h3>\n<p>Examinez les notes pour identifier les tendances et am\u00e9liorer les r\u00e9sultats. Utilisez ces informations pour ajuster et am\u00e9liorer le mod\u00e8le pour un d\u00e9veloppement continu.<\/p>\n<\/div><\/div><\/div><\/div><\/div>","protected":false},"excerpt":{"rendered":"<p>Apprenez comment am\u00e9liorer la pr\u00e9cision et la qualit\u00e9 de vos mod\u00e8les d\u2019IA g\u00e9n\u00e9rative gr\u00e2ce \u00e0 l\u2019\u00e9valuation des invites et des r\u00e9ponses.<\/p>\n","protected":false},"author":25,"featured_media":135752,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[281],"tags":[],"resource-industry":[],"resource-solution":[1186],"resources\/types":[1242],"class_list":["post-155034","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-non-classifiee","resource-solution-entrainement-tests-ia","resource-type-blogues"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/posts\/155034","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/users\/25"}],"replies":[{"embeddable":true,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/comments?post=155034"}],"version-history":[{"count":4,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/posts\/155034\/revisions"}],"predecessor-version":[{"id":155039,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/posts\/155034\/revisions\/155039"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/media\/135752"}],"wp:attachment":[{"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/media?parent=155034"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/categories?post=155034"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/tags?post=155034"},{"taxonomy":"resource-industry","embeddable":true,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/resource-industry?post=155034"},{"taxonomy":"resource-solution","embeddable":true,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/resource-solution?post=155034"},{"taxonomy":"resource-type","embeddable":true,"href":"https:\/\/www.applause.com\/fr\/wp-json\/wp\/v2\/resources\/types?post=155034"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}