Sélectionner Une Page

Évaluez la qualité des modèles d'IA grâce à la notation des invitations et des réponses

Lors d’un récent webinaire sur les meilleures pratiques pour les tests des applications d’IA, j’ai mentionné l’évaluation des invites et des réponses comme moyen d’améliorer la qualité du modèle. Bien que je n’aie pas eu le temps d’entrer dans les détails pendant le webinaire, j’ai pensé l’aborder davantage dans cet article. Lisez la suite pour découvrir ce qu'est la notation des invites et des réponses, pourquoi l'utiliser et comment réaliser ce type de test.  

Qu'est-ce que la notation des invites et des réponses ?

L’évaluation des invites et des réponses est une méthode systématique visant à mesurer la qualité et la précision des résultats de l’IA générative en réponse à des entrées spécifiques de l’utilisateur. L’évaluation prend généralement en compte plusieurs facteurs, tels que la pertinence, l’exactitude, l’exhaustivité, la clarté et la qualité linguistique des réponses générées par l’IA. Les testeurs évaluent chaque réponse selon une grille d'évaluation afin d'identifier les points où le modèle fonctionne comme prévu et ceux où il doit être amélioré. Par exemple, un testeur peut fournir une invite telle que : « Quelles sont les étapes pour réinitialiser mon mot de passe ? » puis évaluer la réponse de l'IA en fonction de sa pertinence, de son exactitude et de sa clarté. 

Pourquoi utiliser la notation des invites et des réponses ?

Il y a trois raisons principales d'utiliser la notation des invites et réponses :

  1. Pour garantir la qualité. L'évaluation garantit que les réponses produites par les systèmes d'IA générative respectent des normes élevées d'exactitude, de pertinence et de clarté, apportant ainsi une valeur ajoutée aux utilisateurs.
  2. Pour favoriser l'amélioration continue. Les avis de la notation aident les développeurs à affiner les modèles d’IA, à améliorer leurs performances et à réduire les erreurs au fil du temps.
  3. Pour démontrer la responsabilité. Cette méthode fournit un mécanisme transparent pour évaluer les performances de l’IA, ce qui est crucial pour instaurer la confiance auprès des utilisateurs et des parties prenantes.

Préparation à l'évaluation des invites et des réponses

Avant de pouvoir commencer les tests, vous devez développer un framework d'évaluation qui définit les critères que vous évaluez et leur importance. Les équipes évaluent généralement l'exactitude et la pertinence, ainsi que des critères tels que l'exhaustivité, la clarté, la langue et la grammaire, le ton et le style, l'adaptabilité et la gestion des erreurs. 

Le ton et le style sont cruciaux pour s’assurer que l’IA s’aligne sur le public cible et le cas d’utilisation, par exemple en maintenant un ton formel dans les applications juridiques ou un ton amical pour les bots de service client. L’adaptabilité évalue dans quelle mesure l'IA peut ajuster ses réponses en fonction du contexte de l’utilisateur, par exemple en traitant sans heurt les questions de suivi ou les demandes de clarification. L’exactitude et la pertinence ont généralement le plus d’importance, représentant souvent plus de 60 % du score global d’évaluation. Cet accent reflète leur importance fondamentale pour la qualité et l'exactitude de la réponse générée.

Une rubrique de notation détaillée pour évaluer les invites et les réponses de l'IA générative décrit les catégories que les testeurs doivent évaluer et les pondérations de chaque catégorie. Voici un exemple de framework détaillé :

  • Précision (40 %) : l’exactitude des informations fournies dans la réponse de l’IA
  • Pertinence (30 %) : la réponse répond directement à l'invite ou non
  • Exhaustivité (15 %) : la réponse couvre tous les aspects nécessaires de l'invite ou non
  • Clarté (10 %) : la facilité avec laquelle la réponse est compréhensible, y compris sa structure et sa présentation
  • Langue et grammaire (5 %) : l'exactitude et la pertinence de la langue, y compris la grammaire, l'orthographe et la ponctuation

Vous devrez également fournir une grille de notation détaillée décrivant clairement comment les testeurs doivent évaluer chaque critère. Le système de notation (binaire, à 3 ou 5 points) dépend du degré de spécificité ou de subjectivité des réponses du système d'IA évalué. Les réponses qui ont un niveau de subjectivité plus élevé peuvent être évaluées sur une échelle de 5 points ; celles qui sont plus spécifiques peuvent être évaluées sur une échelle de 3 points et celles où la réponse est juste/fausse peuvent être évaluées sur une échelle binaire. Voici un exemple de grille d'évaluation de la précision sur une échelle de 5 points :

Précision (40 %)

  • 5 (Excellent) : la réponse est factuellement exacte et ne comporte aucune erreur. Les informations sont correctes et fiables.
  • 4 (Bon) : la réponse est en grande partie exacte, avec des erreurs factuelles mineures ou des omissions.
  • 3 (Satisfaisant) : la réponse contient des informations exactes, mais aussi des erreurs ou des omissions notables.
  • 2 (Amélioration requise) : la réponse présente des erreurs factuelles significatives ou des omissions, rendant l'information peu fiable.
  • 1 (médiocre) : la réponse est en grande partie inexacte, avec des erreurs majeures, fournissant des informations trompeuses ou erronées.

Si vous souhaitiez utiliser une grille d'évaluation à trois points, il vous suffirait d'ajuster la pondération. Voici un exemple de grille à trois points pour évaluer la clarté. Dans ce cas, chaque critère est noté sur une échelle de 1 à 3, puis multiplié par son coefficient de pondération. Le score total possible est de 100, tout comme sur l'échelle originale à 5 points. 

Clarté (10 %) Multiplicateur 3,33 (10 %, donc 3 points * 3,33 = 10 points possibles)

  • 3 (Excellent) : la réponse est très claire, bien structurée et facile à comprendre, sans ambiguïté.
  • 2 (Satisfaisant) : la réponse est assez claire, mais elle peut présenter des problèmes mineurs de structure ou de clarté.
  • 1 (médiocre) : la réponse est peu claire, désorganisée ou difficile à comprendre.

Évaluer les réponses aux invites de l’IA

Au moment du test, vous partagerez la grille d’évaluation complète avec l’équipe de test afin qu’elle comprenne comment noter les réponses. Vous devrez également fournir des conseils ou des paramètres concernant les types d'invites à créer. En outre, vous pouvez fournir des catégories pour différents types de problèmes dans chaque critère d'évaluation afin d'aider les testeurs à quantifier leurs évaluations.

Prenons l’exemple d’un chatbot de service client pour une application de location de véhicules. Nous demanderons aux testeurs de se concentrer sur un cas d’utilisation spécifique : Que faire si les plans de voyage d’un client changent ? Ensuite, nous fournirons aux testeurs des instructions sur les types de questions qu’ils doivent poser. « Les questions doivent aborder des sujets tels que le processus de modification ou de prolongation des réservations, ce qui se passe si les plans changent (comme un retard de vol), et les politiques d’annulation. L’objectif est de s’assurer que le chatbot est capable d’expliquer avec précision les options de modification et d’informer les utilisateurs des frais ou pénalités associés. » 

Dans ce cas, les testeurs évalueront la précision, la pertinence, la clarté et l'utilité des réponses sur une échelle de cinq points (excellent, bon, moyen, passable et médiocre). En plus des évaluations, les testeurs peuvent fournir des avis sur chaque réponse. Voici à quoi cela pourrait ressembler en pratique. 

Demande : Que se passe-t-il si je ne peux pas restituer le véhicule à l’heure prévue ?

Réponse : Si vous ne pouvez pas rendre le véhicule à temps, vous devez demander une prolongation via l’application dès que possible. Si la prolongation est refusée ou ne peut pas être demandée, vous devez restituer le véhicule à l’heure de fin prévue. Les retours tardifs peuvent entraîner des frais supplémentaires et l'annulation de votre assurance.

Évaluation du testeur :

  • Précision = moyenne. Informations partielles fournies.
  • Pertinence = Bonne.
  • Clarté = Moyenne. Explication vague ou peu claire.
  • Utilité = médiocre.

Commentaires du testeur : la réponse ne m'a pas indiqué où aller dans l'application pour demander une extension. Je n’étais pas sûr de ce que le bot voulait dire par « si l’extension ne peut pas être demandée ». Est-ce dû à un problème avec l’application ? Est-ce que le véhicule a été réservé par quelqu'un d'autre à partir d’une certaine heure ? Est-ce que je n'avais pas de connectivité et que je ne pouvais donc pas la demander ? Ça prêtait à confusion.

Utilisez les notes pour identifier les domaines dans lesquels le modèle doit être approfondi ou affiné

Idéalement, les notes vous aideront à identifier des tendances révélant les domaines du modèle sur lesquels vous devez encore travailler pour améliorer les résultats. Ces tendances peuvent également aider votre équipe à hiérarchiser les domaines clés à traiter. Les évaluations des testeurs peuvent également fournir un cadre commun pour discuter des résultats et guider les échanges entre les développeurs, les chefs de produit et les autres parties prenantes. Utiliser les avis issus du processus de notation pour affiner le modèle d'IA et améliorer ses performances lors des futures sollicitations est essentiel au développement continu.

Pas à pas : exécuter la notation des invites et des réponses

1. Définissez votre framework :

Sélectionnez des critères de base et attribuez des pondérations à chacun en fonction de leur importance dans votre cas d'utilisation spécifique.

2. Élaborez une grille d'évaluation :

Choisissez une échelle binaire, à 3 ou 5 points, qui précise clairement comment les testeurs doivent évaluer chaque critère afin de garantir la cohérence.

3. Fournissez des conseils aux testeurs :

Informez votre équipe de test des objectifs et fournissez des « amorces » ou des cas d’utilisation spécifiques pour concentrer leurs efforts.

4. Exécutez le test :

Les testeurs saisissent des invites dans le modèle d'intelligence artificielle (IA) et notent les résultats obtenus selon votre grille d'évaluation, et fournissent des avis lorsque nécessaire.

5. Analysez et itérez :

Examinez les notes pour identifier les tendances et améliorer les résultats. Utilisez ces informations pour ajuster et améliorer le modèle pour un développement continu.

Vous voulez en voir plus comme ça ?
Publié le : 16 janvier 2025
Temps de lecture : 9 min

Évaluez la qualité des modèles d’IA grâce à la notation des invitations et des réponses

Apprenez comment améliorer la précision et la qualité de vos modèles d’IA générative grâce à l’évaluation des invites et des réponses.

10 Grandes Tendances du Commerce en 2021

Le e-commerce est la principale tendance du commerce de détail en 2021

Pourquoi les projets de machine learning échouent ?

Découvrez les 5 raisons expliquant pourquoi les projets de machine learning échouent et comment éviter ces erreurs pour construire une expérience d’IA réussie.

Comment optimiser l’expérience de vos clients lors de la recharge d’un véhicule électrique

Voici comment des entreprises proposent une expérience transparente de recharge de véhicules électriques grâce au testing UX, fonctionnel ou de paiements.

Guide rapide pour le développement d’un portefeuille crypto

Les attentes des clients augmentent lorsqu’il s’agit d’applications financières, et le secteur des cryptomonnaies n’y fait pas exception. Est-ce que votre portefeuille crypto sort du lot ?

Jeux de hasard en ligne en 2022 : à quelles tendances le secteur doit-il s’attendre ?

Tendances réalistes pour 2022 concernant les jeux d’argent en ligne
No results found.