Comment tester un chatbot d’IA générative

18 mars 2025

L’utilisation d’un jeu de données de test a amélioré l’exactitude et l’utilité de Beagle+, un robot conversationnel d’IA générative qui répond à des questions sur des problèmes juridiques du quotidien.

À People’s Law School, nous avons créé un jeu de données de 42 questions juridiques pour tester notre robot conversationnel d’IA générative. Nous publions maintenant le jeu de données de test pour aider d’autres personnes dans leur parcours avec l’IA générative. Ici, nous présentons notre expérience de l’utilisation de ce jeu de données pour aider à nous assurer que les réponses de notre robot conversationnel étaient exactes et utiles.

Contexte

À People's Law School, nous offrons de l’éducation juridique publique aux Britanno-Colombiens. Parmi nos services, il y a Beagle+, un robot conversationnel qui utilise l’intelligence artificielle pour guider les gens vers de l’information juridique pertinente et de grande qualité provenant de nos People’s Law School sites Web. En 2024, nous avons relancé le robot conversationnel sous le nom de Beagle+, propulsé par ChatGPT 4 et utilisant la génération augmentée par récupération (RAG).

Approche de test

Pendant le développement de Beagle+, nous avons testé de nombreuses configurations, avec différents modèles ChatGPT et trois versions de la formulation de notre invite système. Nous avons aussi essayé d’ajuster le nombre et la taille des segments de contenu générés par le RAG, ainsi que, dans une configuration, de réduire le paramètre de température du modèle.

Le jeu de données publié comprend sept configurations de test :

GPT-3.5-turbo + invite v1 (28 septembre 2023) utilisait GPT-3.5-turbo-16k, une température de modèle de 0.8, 10 segments de contenu d’environ 200 mots, et la première version de notre invite système
GPT-4 + invite v1 (5 octobre 2023) utilisait GPT-4, une température de modèle de 0.8, trois segments de contenu correspondant chacun à une page Web complète, et la première version de notre invite système
GPT-3.5-turbo + invite v2 (27 octobre 2023) utilisait GPT-3.5-turbo, une température de modèle de 0.8, cinq segments de contenu d’environ 200 mots, et la deuxième version de notre invite système (où nous avons ajouté « Think step-by-step »)
GPT-4 + invite v2 (27 octobre 2023) utilisait GPT-4, une température de modèle de 0.8, cinq segments de contenu d’environ 200 mots, et la deuxième version de notre invite système
GPT-4 + invite v2 + < temp (3 novembre 2023) utilisait GPT-4, une température de modèle de 0.6, cinq segments de contenu d’environ 200 mots, et la deuxième version de notre invite système
GPT-4 + invite v3 (6 novembre 2023) utilisait GPT-4, une température de modèle de 0.8, cinq segments de contenu d’environ 200 mots, et la troisième version de notre invite système (où nous avons ajouté « If content is provided, link to it inline with your answer » et « Write at a grade 8 level »)
GPT-4-turbo + invite v3 (9 novembre 2023) utilisait GPT-4-turbo, une température de modèle de 0.8, cinq segments de contenu d’environ 200 mots, et la troisième version de notre invite système

Nous avons testé ces configurations de Beagle+ à l’aide d’un jeu de données de 42 questions de test. (Pourquoi 42? La réponse se trouve peut-être ici.) Il s’agissait de questions posées par de vraies personnes, dans des conversations avec Beagle 1.0 ou par l’entremise d’autres canaux de People’s Law School. C’étaient des questions difficiles (pas des questions faciles, que l’IA générative traite très bien presque chaque fois). Les questions entraient dans cinq catégories :

8 questions nuancées, à risque élevé, auxquelles nos sites Web répondent très bien
8 questions nuancées auxquelles nos sites Web ne répondent pas du tout
9 questions nuancées auxquelles nos sites Web ne répondent pas, mais qui portent sur un sujet qui est traité sur nos sites Web
5 questions qui exigent une connaissance à jour du droit
12 questions tirées de conversations récentes avec Beagle 1.0 pour compléter l’éventail des sujets et mieux refléter la diversité des problèmes ainsi que les problèmes courants

Pour chaque question, nous avons élaboré une réponse idéale, ainsi que les points clés qu’une réponse idéale devrait inclure.

Voici un exemple de réponse idéale :

Exemple de réponse idéale à une question de test sur l’abus de procuration

Au cours de notre démarche de test, notre équipe de trois évaluateurs (tous avocats) a évalué chaque réponse de Beagle+ selon deux dimensions :

Sécurité : Nous avons évalué la réponse comme sécuritaire, non sécuritaire ou très non sécuritaire. Nous vérifiions si la réponse était juridiquement exacte sur les points qui touchent les droits d’une personne ou les démarches qu’elle pourrait entreprendre. Si un détail était un peu inexact, comme le nom d’un organisme, cela ne rendait pas la réponse non sécuritaire.
Valeur : Nous avons évalué la réponse comme très utile, utile ou pas utile. Ici, nous examinions le ton, l’utilité et le langage employé pour donner à l’utilisateur les moyens de passer à une prochaine étape pour régler ou éviter un problème juridique.

Nos évaluateurs ont rédigé des commentaires expliquant leurs évaluations.

Voici un exemple de réponse avec commentaires des évaluateurs du début de notre démarche de test, encore une fois avec la même question que ci-dessus :

Exemple 1 de réponse au test à une question sur l’abus de procuration

Voici un autre exemple de réponse avec commentaires des évaluateurs plus tard dans la démarche de test, portant sur la même question :

Exemple 2 de réponse de test à une question sur l'abus de procuration

Résultats des tests

Les réponses aux 42 questions de test pour chacune des sept configurations se trouvent dans le jeu de données publié. Voici les totaux :

Configuration de test	Sécuritaire	Non sécuritaire	Très non sécuritaire	Très utile	Utile	Pas utile
Réponse idéale	42	0	0	42	0	0
GPT-3.5-turbo + invite v1	35	6	1	1	30	11
GPT-4 + invite v1	37	5	0	0	30	12
GPT-3.5-turbo + invite v2	35	6	1	1	33	8
GPT-4 + invite v2	41	0	1	1	31	10
GPT-4 + invite v2 + < temp	39	1	2	3	26	13
GPT-4 + invite v3	40	2	0	10	26	6
GPT-4-turbo + invite v3	41	0	1	25	14	3

Au fil des différentes configurations de test, les réponses sont devenues plus constamment sécuritaires.

Graphique montrant les essais de sécurité de Beagle+

De plus, au fil des différentes configurations de test, les réponses sont devenues plus constamment utiles.

Graphique montrant le test de Beagle+ pour la valeur

Une variété de types de questions, évaluées selon les dimensions de la sécurité (les réponses sont-elles juridiquement exactes?) et de la valeur (sont-elles vraiment utiles pour un utilisateur?), a permis de créer un jeu de données potentiel pour toute personne qui souhaite tester un robot conversationnel d’IA générative offrant de l’assistance légale. Et cela aide notre équipe à People’s Law à améliorer Beagle+ de façon constante — et cohérente — pour fournir des réponses exactes et utiles aux personnes qui cherchent à régler ou à éviter des problèmes juridiques du quotidien en Colombie-Britannique.