Comment tester un chatbot d’IA générative

Illustration of dog handler and dog

18 mars 2025

L’utilisation d’un jeu de données de test a amélioré l’exactitude et l’utilité de Beagle+, un robot conversationnel d’IA générative qui répond à des questions sur des problèmes juridiques du quotidien.

À People’s Law School, nous avons créé un jeu de données de 42 questions juridiques pour tester notre robot conversationnel d’IA générative. Nous publions maintenant le jeu de données de test pour aider d’autres personnes dans leur parcours avec l’IA générative. Ici, nous présentons notre expérience de l’utilisation de ce jeu de données pour aider à nous assurer que les réponses de notre robot conversationnel étaient exactes et utiles. 

Contexte

À People's Law School, nous offrons de l’éducation juridique publique aux Britanno-Colombiens. Parmi nos services, il y a Beagle+, un robot conversationnel qui utilise l’intelligence artificielle pour guider les gens vers de l’information juridique pertinente et de grande qualité provenant de nos People’s Law School sites Web. En 2024, nous avons relancé le robot conversationnel sous le nom de Beagle+, propulsé par ChatGPT 4 et utilisant la génération augmentée par récupération (RAG).  

Approche de test

Pendant le développement de Beagle+, nous avons testé de nombreuses configurations, avec différents modèles ChatGPT et trois versions de la formulation de notre invite système. Nous avons aussi essayé d’ajuster le nombre et la taille des segments de contenu générés par le RAG, ainsi que, dans une configuration, de réduire le paramètre de température du modèle. 

Le jeu de données publié comprend sept configurations de test :

  • GPT-3.5-turbo + invite v1 (28 septembre 2023) utilisait GPT-3.5-turbo-16k, une température de modèle de 0.8, 10 segments de contenu d’environ 200 mots, et la première version de notre invite système

  • GPT-4 + invite v1 (5 octobre 2023) utilisait GPT-4, une température de modèle de 0.8, trois segments de contenu correspondant chacun à une page Web complète, et la première version de notre invite système

  • GPT-3.5-turbo + invite v2 (27 octobre 2023) utilisait GPT-3.5-turbo, une température de modèle de 0.8, cinq segments de contenu d’environ 200 mots, et la deuxième version de notre invite système (où nous avons ajouté « Think step-by-step »)

  • GPT-4 + invite v2 (27 octobre 2023) utilisait GPT-4, une température de modèle de 0.8, cinq segments de contenu d’environ 200 mots, et la deuxième version de notre invite système 

  • GPT-4 + invite v2 + < temp (3 novembre 2023) utilisait GPT-4, une température de modèle de 0.6, cinq segments de contenu d’environ 200 mots, et la deuxième version de notre invite système 

  • GPT-4 + invite v3 (6 novembre 2023) utilisait GPT-4, une température de modèle de 0.8, cinq segments de contenu d’environ 200 mots, et la troisième version de notre invite système (où nous avons ajouté « If content is provided, link to it inline with your answer » et « Write at a grade 8 level »)

  • GPT-4-turbo + invite v3 (9 novembre 2023) utilisait GPT-4-turbo, une température de modèle de 0.8, cinq segments de contenu d’environ 200 mots, et la troisième version de notre invite système 

Nous avons testé ces configurations de Beagle+ à l’aide d’un jeu de données de 42 questions de test. (Pourquoi 42? La réponse se trouve peut-être ici.) Il s’agissait de questions posées par de vraies personnes, dans des conversations avec Beagle 1.0 ou par l’entremise d’autres canaux de People’s Law School. C’étaient des questions difficiles (pas des questions faciles, que l’IA générative traite très bien presque chaque fois). Les questions entraient dans cinq catégories :

  • 8 questions nuancées, à risque élevé, auxquelles nos sites Web répondent très bien 

  • 8 questions nuancées auxquelles nos sites Web ne répondent pas du tout 

  • 9 questions nuancées auxquelles nos sites Web ne répondent pas, mais qui portent sur un sujet qui est traité sur nos sites Web 

  • 5 questions qui exigent une connaissance à jour du droit

  • 12 questions tirées de conversations récentes avec Beagle 1.0 pour compléter l’éventail des sujets et mieux refléter la diversité des problèmes ainsi que les problèmes courants 

Pour chaque question, nous avons élaboré une réponse idéale, ainsi que les points clés qu’une réponse idéale devrait inclure.

Voici un exemple de réponse idéale :

Exemple de réponse idéale à une question de test sur l’abus de procuration

Au cours de notre démarche de test, notre équipe de trois évaluateurs (tous avocats) a évalué chaque réponse de Beagle+ selon deux dimensions :

  • Sécurité : Nous avons évalué la réponse comme sécuritaire, non sécuritaire ou très non sécuritaire. Nous vérifiions si la réponse était juridiquement exacte sur les points qui touchent les droits d’une personne ou les démarches qu’elle pourrait entreprendre. Si un détail était un peu inexact, comme le nom d’un organisme, cela ne rendait pas la réponse non sécuritaire.

  • Valeur : Nous avons évalué la réponse comme très utile, utile ou pas utile. Ici, nous examinions le ton, l’utilité et le langage employé pour donner à l’utilisateur les moyens de passer à une prochaine étape pour régler ou éviter un problème juridique. 

Nos évaluateurs ont rédigé des commentaires expliquant leurs évaluations.

Voici un exemple de réponse avec commentaires des évaluateurs du début de notre démarche de test, encore une fois avec la même question que ci-dessus :

Exemple 1 de réponse au test à une question sur l’abus de procuration

Voici un autre exemple de réponse avec commentaires des évaluateurs plus tard dans la démarche de test, portant sur la même question :

Exemple 2 de réponse de test à une question sur l'abus de procuration

Résultats des tests

Les réponses aux 42 questions de test pour chacune des sept configurations se trouvent dans le jeu de données publié. Voici les totaux :

Configuration de test

Sécuritaire

Non sécuritaire

Très non sécuritaire

Très utile

Utile

Pas utile

Réponse idéale

42

0

0

42

0

0

GPT-3.5-turbo + invite v1

35

6

1

1

30

11

GPT-4 + invite v1

37

5

0

0

30

12

GPT-3.5-turbo + invite v2

35

6

1

1

33

8

GPT-4 + invite v2

41

0

1

1

31

10

GPT-4 + invite v2 + < temp

39

1

2

3

26

13

GPT-4 + invite v3

40

2

0

10

26

6

GPT-4-turbo + invite v3

41

0

1

25

14

3

Au fil des différentes configurations de test, les réponses sont devenues plus constamment sécuritaires.

Graphique montrant les essais de sécurité de Beagle+

De plus, au fil des différentes configurations de test, les réponses sont devenues plus constamment utiles.

Graphique montrant le test de Beagle+ pour la valeur

Une variété de types de questions, évaluées selon les dimensions de la sécurité (les réponses sont-elles juridiquement exactes?) et de la valeur (sont-elles vraiment utiles pour un utilisateur?), a permis de créer un jeu de données potentiel pour toute personne qui souhaite tester un robot conversationnel d’IA générative offrant de l’assistance légale. Et cela aide notre équipe à People’s Law à améliorer Beagle+ de façon constante — et cohérente — pour fournir des réponses exactes et utiles aux personnes qui cherchent à régler ou à éviter des problèmes juridiques du quotidien en Colombie-Britannique.

Ce site Web explique de façon générale la loi qui s’applique en Colombie-Britannique, au Canada. L’information n’est pas destinée à constituer un avis juridique. Les cas auxquels nous faisons référence reflètent des expériences réelles, mais les noms ont été changés. Consultez notre avis de non-responsabilité complet.

Restez à jour gratuitement. Abonnez-vous à notre infolettre.

Accédez à l'archive des infolettres par courriel.

Contactez-nous

Vous pouvez nous joindre par téléphone au 604-331-5400. Plus d'informations de contact.

Aussi de People's Law School

Dial-A-Law : Un point de départ pour obtenir de l’information sur le droit en Colombie-Britannique dans plus de 190 domaines. Accessible en ligne et par téléphone.

Services juridiques à portée limitée : Renseignez-vous sur un nouveau modèle de service pour obtenir de l’aide juridique à moindre coût. 

Beagle : Un robot conversationnel qui vous aide à régler des problèmes juridiques courants. Cherchez dans le coin inférieur droit :)

Merci à nos bailleurs de fonds

Découvrez nos principaux bailleurs de fonds.

People's Law School logo

Nous sommes reconnaissants de travailler sur les territoires traditionnels non cédés des Nations xʷməθkʷəy̓əm (Musqueam), Sḵwx̱wú7mesh (Squamish) et səlilwətaɬ (Tsleil-Waututh), dont les peuples continuent d'habiter ces terres et d'en prendre soin.