Highlights from State of Digital Quality

Pourquoi les projets de machine learning échouent ?

Commencez par taper « l’intelligence artificielle changera » dans un moteur de recherche, et vous allez voir des phrases suggérées terminant par « le monde », « la vie », « la nature » ou encore « l’art ». Si vous allez plus loin dans vos recherches, il est clair que les projets d’IA et de machine learning conduisent non seulement à des évolutions, mais sont également partie intégrale de leur succès. Selon un rapport d’Accenture, 85% des managers d’industries à fort besoin de capitaux pensent qu’ils n’atteindront pas leurs objectifs de croissance sans adopter une stratégie d’IA.

Dans le même temps, les recherches du MIT Sloan suggèrent que l’écart entre les organisations qui réussissent à obtenir un avantage grâce à la data science et celles qui rencontrent des difficultés s’agrandit. Comme nous le savons, la data science et le machine learning sont les moteurs des applications d’IA, car c’est en intégrant des données que l’IA apprend comment interpréter notre monde et à répondre comme nous le souhaitons. Si l’IA doit avoir un impact réel pour les entreprises et leurs clients, ces entreprises doivent adopter une nouvelle approche au machine learning. Comme la Review du MIT Technology conclut : « la façon dont nous entrainons l’IA est fondamentalement faussée ».

Beaucoup d’articles dans des publications comme Towards Data Science ou Open Data Science cherchent à expliquer techniquement et en détail pourquoi les projets de machine learning échouent. Ces articles sont intéressants si vous êtes un data scientist, mais ne sont pas d’une grande aide si vous êtes une entreprise essayant de comprendre pourquoi leur assistant de chat ou campagne de personnalisation ayant connus des investissements substantiels n’a jamais décollé.

La réalité est que votre projet de machine learning n’a probablement pas échoué à cause de votre approche au data versioning ou model deployment. La plupart des projets de machine learning échouent simplement car les entreprises ne disposent pas des bonnes ressources, de l’expertise ou d’une stratégie dès le départ. McKinsey’s 2021 State of AI Report a corroboré ces éléments, rapportant que les entreprises qui connaissent un impact plus important suite à l’adoption de l’IA suivent des bonnes pratiques en matière d’IA et dépensent dans ce domaine plus efficacement que d’autres entreprises similaires.

Cinq erreurs répandues que commettent les entreprises en IA

Au travers de nos travaux sur des projets de ML pour certaines des plus grandes entreprises au monde, Applause a identifié des erreurs fréquemment commises qui réduisent l’efficacité, augmentent les coûts et allongent les délais – et sont in fine les raisons pour lesquelles les projets de machine learning échouent.

Erreur répandue n°1 : Sous-évaluer les ressources nécessaires pour entrainer les algorithmes de ML

La première raison pour laquelle les projets de machine learning échouent, est que les entreprises ne sont pas suffisamment préparées et équipées pour les mener à bout. Selon Dimensional Research, 8 entreprises sur 10 trouvent que les projets de machine learning sont plus complexes que prévus, car elles sous-estiment le travail nécessaire pour que les modèles d’entrainement fonctionnent correctement. C’est pourquoi si peu de projets de data science arrivent au stade de production ; sans une compréhension claire des ressources et de l’expertise nécessaires, les entreprises finissent soit par rencontrer des obstacles insurmontables ou bien dépenser leur budget inutilement. L’une des choses qu’elles sous-évaluent le plus est l’effort requis pour collecter les données d’apprentissage nécessaires – ce qui nous amène à l’erreur la plus répandue n°2.

Erreur répandue n°2 : Dépendre de courtiers de données pour obtenir des données d’apprentissage

Les entreprises n’éprouvent pas de difficultés pour obtenir des données d’apprentissage ; Après tout, il y a de nombreux vendeurs qui proposent des données dans des volumes importants, le tout pour un prix relativement bas. La raison pour laquelle les projets de machine learning échouent est que les entreprises rencontrent des difficultés à obtenir des données d’apprentissage de haute qualité.

En achetant des données génériques auprès de courtiers, les entreprises n’obtiennent pas des données assez spécifiques pour leurs projets de machine learning. Afin de comprendre pourquoi, prenons l’exemple d’un fournisseur de cours de fitness en ligne, en train de développer un coach personnel. Afin que ce coach soit capable de reconnaître les erreurs, et de proposer des recommandations adaptées, il a besoin d’être entrainé avec des données qui vont au-delà de celles d’unsimple utilisateur dans le cadre de différents exercices. Il a également besoin de savoir comment reconnaître les individus dans des situations de fatigue respiratoire, de transpiration, en train de porter différents vêtements et à des niveaux de forme et d’expertise variés.

De nombreuses problématiques existent avec les jeux de données préexistants :

Il n’y a pas de garantie que les données soient équilibrées en termes d’âge, de genre, d’accent, etc., pour pouvoir réduire les biais ;
Les données n’ont pas été taguées ou pas de manière à faire sens pour l’algorithme ;
La conformité des données vis-à-vis des standards dictés par les différentes régulations comme l’European Artificial Intelligence Act (EU AIA) n’a pas été évalué ;
Les entreprises ne sont pas sûres que des mesures de confidentialité et de sécurité ont été observés, et ne reçoivent pas non plus de consignes sur comment protéger l’intégrité de ces données par la suite.

Afin de mener à bien des projets de machine learning, les entreprises devraient réfléchir à comment composer des jeux de données d’apprentissage plutôt qu’à les acheter.

Erreur répandue n°3 : Sous-estimer à quel point l’IA demande une itération constante

Acheter des données auprès d’un courtier n’a pas seulement des ramifications quant à la qualité des données d’apprentissage, mais rend également le processus d’entrainement de l’IA plus complexe.

Entrainer des algorithmes de ML n’est pas un processus pouvant être effectué d’une traite. Une fois que l’apprentissage est en cours, les développeurs doivent continuellement procéder à des ajustements concernant les données devant être collectées, tandis que les besoins se précisent. Cela peut s’expliquer par le fait qu’entrainer un algorithme d’IA est comme faire ses courses et cuisiner en même temps : vous pensez que vous disposez de tous les ingrédients dont vous avez besoins, mais quand vous commencez à cuisiner, vous réalisez que vous avez oublié un ingrédient, que vous devez procéder à un ajustement ou que l’équilibre des ingrédients n’est pas le bon – et vous devez donc améliorer votre recette en fonction.

En machine learning, il est difficile de savoir exactement de quelles données vous aurez besoin jusqu’à ce que vous débutiez le processus d’entrainement de l’algorithme. Vous pouvez réaliser que le jeu de données n’est pas assez large ou qu’il y a un problème sur la façon dont les données ont été collectées. Beaucoup de courtiers en données ont des politiques contractuelles assez strictes – ou n’offrent même pas la possibilité de modifier la requête de collecte – laissant les développeurs d’IA avec des données dont ils n’ont pas vraiment besoin, avec comme seul choix d’acheter un nouveau jeu de données répondant à leurs attentes. C’est un point d’achoppement qui est très connu pour les entreprises, qui contribue à l’augmentation des coûts, un allongement des délais, et une réduction de l’efficacité. Au final, c’est l’une des principales raisons pour laquelle les projets de machine learning échouent.

Erreur répandue n°4 : Ne pas intégrer les tests de qualité digitale

Les entreprises présentes dans toutes les industries échouent souvent à intégrer le testing QA, et ce quel que soit le stage du processus de développement produit. Il est faussement considéré comme une option, une formalité pour vérifier si un produit fonctionne correctement, contrairement à un outil qui peut être utilisé pour optimiser un produit de manière itérative.

Une des raisons pour laquelle les projets de machine learning échouent, est que l’attitude par rapport au testing QA est intenable compte-tenu des réalités du développement de l’IA. Contrairement au développement traditionnel de logiciels, vous ne pouvez pas simplement identifier des bugs lors d’une mise à jour classique. Les erreurs identifiées lors d’un processus de testing QA ne peuvent être uniquement corrigées en réalisant le processus dans son intégralité. Si votre IA ne fonctionne pas comme prévu, c’est potentiellement parce qu’il y a un problème avec les données d’apprentissage, ou bien car elles ont orienté le modèle dans la mauvaise direction. Dans tous les cas, cela signifie qu’il est nécessaire de repartir depuis le départ et composer un nouveau jeu de données d’apprentissage.

Les entreprises qui n’intègrent pas une étape de validation à toutes les étapes du processus de développement d’une IA se rendent la tâche plus difficile. Plutôt que d’entrainer l’algorithme avec de larges jeux de données, pour ensuite tester l’IA, elles ont besoin d’entrainer et de tester de manière plus itérative. Adopter une approche agile et intégrée au testing aidera à réduire les dépenses futiles, les délais, et à procéder à une meilleure allocation des ressources.

Erreur répandue n°5 : Échouer à mettre en place des revues fréquentes

La dernière raison pour laquelle les projets de machine learning échouent, est que les entreprises crient victoire trop rapidement.

Les projets d’IA ne sont jamais réellement terminés. Même si une expérience d’IA répond correctement aux attentes en termes de performance, elle n’a été entrainée qu’à l’aide de données représentant la société d’aujourd’hui. L’algorithme a appris à prendre des décisions basées sur des opinions, conversations et images qui changent de jour en jour. Réfléchissez aux applications de traitement du langage naturel (NLP) : elles ne savent communiquer uniquement car elles ont été entrainées à l’aide de vraie conversation. Compte-tenu du fait que 5 400 nouveaux mots sont créés chaque année en langue anglaise seulement, les applications de NLP perdent en précision très rapidement.

Si les expériences d’IA veulent continuer à être utiles à leurs utilisateurs, elles ont besoin d’être à nouveau entrainées sur la base des changements sociétaux, des développements technologiques et des modifications terminologiques.

Comment s’assurer que les projets de machine learning réussissent

Ce dont les entreprises ont besoin est une approche programme au développement d’IA. Plutôt que de penser à chaque étape comme des projets distincts, les entreprises devraient considérer à les réunir en les intégrant dans un programme holistique. Développer une IA est un processus itératif, agile, dans lequel les équipes travaillent de concert, et non pas en silo, le tout gouverné par un leader programme sur lequel la responsabilité du succès de ce dernier repose.

Afin d’en savoir plus sur comment votre entreprise peut implémenter une approche programme concernant le développent d’expériences IA réellement utiles à vos clients, téléchargez notre livre blanc : Construire un programme robuste de collecte de données de ML/IA.

Vous voulez en voir plus comme ça ?

Entraînements et tests d’IA

Emerson Sklar

Évangéliste technologique et architecte de solutions

Publié le : 11 avril 2022

Temps de lecture : 11 min

Entraînements et tests d’IA

Qu’est-ce que l’IA agentique ?

Découvrez ce qui différencie l'IA agentique de l'IA générative et de l'IA traditionnelle, et comment l'IA agentique augmente les enjeux pour les développeurs.

Entraînements et tests d’IA

Évaluez la qualité des modèles d’IA grâce à la notation des invitations et des réponses

Apprenez comment améliorer la précision et la qualité de vos modèles d’IA générative grâce à l’évaluation des invites et des réponses.

Entraînements et tests d’IA

10 Grandes Tendances du Commerce en 2021

Le e-commerce est la principale tendance du commerce de détail en 2021

Entraînements et tests d’IA