Vittascience et IA : Différence entre versions
(→Préambule) |
(→La génération de Texte) |
||
Ligne 96 : | Ligne 96 : | ||
== La génération de Texte == | == La génération de Texte == | ||
− | + | ===Généralité=== | |
− | + | ||
− | * | + | [[Fichier:Capture d’écran 2025-09-16 à 08.21.11.png|cadre|centré]] |
− | * | + | |
− | + | * Le Modèle : correspond aux différents modèles de LLM disponible, attention certains sont payants <br> | |
− | ==== | + | |
− | + | * Le paramètre Aléatoire : La variation aléatoire, ou température, est un paramètre utilisé pour contrôler la créativité et la diversité des réponses générées par un modèle de langage. <br> | |
− | + | ||
− | + | Si la température est basse (proche de 0), l'IA est très prudente et choisit toujours le token le plus probable (le plus souvent en vert). Le texte sera prévisible, mais aussi souvent répétitif.<br> | |
− | + | ||
− | + | Si la température est élevée, le modèle peut choisir des tokens avec une probabilité plus faible (jaune ou rouge). Le texte sera plus créatif et inattendu, mais peut aussi devenir moins cohérent.<br> | |
− | + | ||
− | + | ||
+ | * Les Tokens : des groupes de caractères représentant l'unité fondamentale du texte <br> | ||
+ | |||
+ | Un token peut être :<br> | ||
+ | Un mot entier : par exemple, "maison" ou "chat".<br> | ||
+ | Une partie de mot : par exemple, "ordina" et "teur" pour former "ordinateur".<br> | ||
+ | Un signe de ponctuation : comme une virgule ou un point d'interrogation.<br> | ||
+ | Même des espaces.<br> | ||
+ | |||
+ | * Les Couleurs <br> | ||
+ | La couleur indique l'importance du score pour chaque token. | ||
+ | |||
+ | ===En animation=== | ||
+ | Objectif :un modèle de langage (LLM) n'invente rien. Il fonctionne en assemblant des mots les uns après les autres. Pour chaque nouveau mot à générer, il calcule la probabilité de tous les mots possibles dans son vocabulaire et choisit celui qui a la plus forte probabilité de suivre les mots précédents. | ||
+ | |||
+ | ====Comment ça marche ?==== | ||
+ | On lui donne un point de départ. C'est ce qu'on appelle le prompt. Ça peut être une question, une phrase, ou un début d'histoire. | ||
+ | |||
+ | Il génère le premier mot. Le modèle analyse le prompt, puis il parcourt sa base de données pour prédire le mot qui a la plus grande chance de venir après. | ||
+ | |||
+ | Il répète l'opération. Une fois le premier mot choisi, il l'ajoute au prompt, et le processus recommence pour trouver le deuxième mot le plus probable. C'est une boucle qui se poursuit jusqu'à ce que la phrase soit terminée. | ||
+ | |||
+ | ====La notion de probabilité et de choix==== | ||
+ | Le principe fondamental est que la réponse de l'IA n'est rien d'autre qu'une série de tokens mis bout à bout, chacun choisi en fonction d'une probabilité. | ||
+ | |||
+ | Le principe de base : L'IA ne crée pas la réponse, elle sélectionne simplement la suite de tokens la plus probable. | ||
+ | |||
+ | ====Les couleurs ==== | ||
+ | |||
+ | Vert 🟢 : Le token a une très forte probabilité d'être le suivant. Le choix est presque certain. | ||
+ | |||
+ | Jaune 🟡 : La probabilité est moyenne. Le modèle a plusieurs options plausibles. | ||
+ | |||
+ | Rouge 🔴 : Le token a une faible probabilité. Il s'agit d'un choix très peu courant. | ||
+ | |||
+ | |||
+ | ====En résumé==== | ||
+ | L'IA ne fait qu'assembler des briques de langage (les tokens) en se basant sur la probabilité. Il n'y a pas de "pensée" ni d'"imagination" derrière la réponse, juste des calculs de probabilités. C'est pour cela que les réponses peuvent parfois sembler étranges ou illogiques si les paramètres sont mal ajustés. | ||
− | |||
==== Selon l'Agence internationale de l'énergie, une requête sur ChatGPT consomme dix fois plus d'électricité qu'une recherche sur Google. ==== | ==== Selon l'Agence internationale de l'énergie, une requête sur ChatGPT consomme dix fois plus d'électricité qu'une recherche sur Google. ==== | ||
− | |||
==Comprendre les IA textuelles == | ==Comprendre les IA textuelles == |
Version du 16 septembre 2025 à 08:42
Sommaire
Tutoriel sur le site Vittascience et sur l'IA
La création de ce tutoriel a consisté principalement à mettre par écrit les informations présentées dans la vidéo de VittaScience.
https://www.youtube.com/watch?v=EDtvcOl_PhA
Préambule
L'utilisation d'une caméra avec des mineurs, même si les images sont conservées localement, soulève d'importants enjeux liés au RGPD.
En plus de la protection des données personnelles, l'utilisation d'images de mineurs relève du droit à l'image, qui exige l'autorisation parentale.
Entrainer une IA à reconnaitre des images
- Aller sur le site vittascience
- dans la barre en haut, cliquer sur IA
- Cliquer sur Images
Objectif
- Acquérir des compétences pratiques en manipulation d'outils d'IA éducatifs.
- Comprendre le concept de "jeu de données" (images d'entraînement et de test) pour l'apprentissage d'une IA.
- Démystifier le concept de l'intelligence artificielle
Définition
Qu'est-ce qu'un jeu de données : c'est une GRANDE collection de photos, on dit qu'elles sont étiquetées, c'est-à-dire qu'on dit à l'ordinateur ce qu'il y a sur chaque photo, ceci est un carré, ceci est un rond, ceci est un chat etc, l'ordinateur utilise ce jeu de données pour apprendre à identifier les caractéristiques de chaque catégorie et pour ensuite reconnaitre de nouvelles photos qu'il n'a jamais vues ?
Étape 1
Permettre de comprendre le principe d'un jeu de données :
les données peuvent être :
* des images téléchargées depuis votre ordinateur * Des captures d'images depuis la caméra de votre ordinateur * des images présentes dans la banque de vittascience
Pour qu'un modèle apprenne à catégoriser une information, il lui faut au minimum 2 catégories. Nous allons en créer 2 (à gauche de l'écran) cliquer sur l'image pour l'emplacement des étapes :
ROND
CARRÉ
Puis, nous allons commencer à capturer des images (à travers la caméra de votre ordinateur ou, en utilisant les modèles déjà présent, à défaut, en les récupérant sur votre ordinateur).
Pour qu'un modèle soit efficace, il lui faut une grande quantité d'images dans chaque catégorie, mais déjà avec 2 photos ça fonctionne déjà.
Placez un post-it avec un rond dessiné dessus dans la zone visible par la caméra, puis cliquez sur le bouton "prendre une photo" et capturez ensuite entre 10 et 15 photos de ronds. Ils peuvent être dessinés avec plusieurs feutres, découpés dans une autre forme. Il faut varier les types de ronds pour que notre modèle soit efficace à reconnaître les ronds qu'il ne connaît pas.
Refaites la même opération dans la deuxième catégorie, mais avec des carrés.
Étape 2
Maintenant que nous avons notre jeu de données et qu'il contient suffisamment de données pour qu'il puisse faire des prédictions, cliquer sur le bouton "entrainer le modèle " (au centre de l'écran).
Étape 3
Placez un nouvel objet (il faut le dessiner sur post-it, par exemple) dans la zone visible par la caméra et observez le pourcentage de prédiction (à droite de l'écran). Plus le pourcentage est élevé, plus le modèle est précis.
Cliquer sur le bouton 'Zones d’influence’ et montrer à nouveau des objets à la caméra. Les zones de l’image en surbrillance correspondent à celles qui sont les plus déterminantes dans les prédictions de l’IA.
Idées d'utilisation avec un modèle biaisé
On crée un nouveau modèle en utilisant la banque d'image, en prenant les femmes (biaisé) et les hommes (biaisé), on entraine le modèle et si on met une femme avec les cheveux court alors le modèle IA me reconnait comme un homme, car les données d'entrainement identifient un homme grâce aux cheveux courts et une femme avec les cheveux longs.
Grâce à ce modèle, on peut introduire les biais d'une IA, et expliquer les problématiques associés
- Inéquité et discrimination : un biais de genre
C'est la problématique la plus grave. Une IA peut, par exemple, discriminer certaines personnes lors d'un recrutement, de l'octroi d'un prêt ou d'une évaluation de risque. Si un modèle est entraîné avec des données historiques où les hommes étaient majoritairement embauchés pour certains postes, il pourrait par la suite privilégier les candidatures masculines.
- Manque de fiabilité : un biais de données
Un modèle biaisé est un modèle peu fiable. Les prédictions qu'il fait pour les groupes sous-représentés ou exclus de ses données d'entraînement peuvent être fausses ou de mauvaise qualité. Par exemple, un système de reconnaissance faciale pourrait avoir un taux d'erreur beaucoup plus élevé pour les personnes à la peau foncée s'il a été principalement entraîné sur des visages de personnes à la peau claire.
- Renforcement des stéréotypes : Biais de stéréotype
L'IA peut renforcer les stéréotypes existants. Un modèle de génération de texte, entraîné sur des données qui associent les métiers scientifiques aux hommes et les métiers de la santé aux femmes, pourrait systématiquement produire des phrases stéréotypées.
Conclusion
En réalisant ces manipulations, vous avez pu :
Acquérir des compétences pratiques en manipulation d'outils d'IA éducatifs. Vous avez interagi avec l'interface de VittaScience pour créer des catégories, capturer des images via votre webcam ou depuis votre ordinateur, et lancer l'entraînement d'un modèle d'IA. Cette expérience vous a permis de découvrir comment des outils en ligne peuvent simplifier l'approche de concepts complexes de l'IA.
Comprendre le concept de "jeu de données" (images d'entraînement et de test) pour l'apprentissage d'une IA. En constituant vos propres collections d'images de ronds et de carrés, vous avez créé un jeu de données d'entraînement. Ces images étiquetées ont servi de base à l'apprentissage de votre modèle. Lorsque vous avez ensuite testé le modèle avec de nouvelles images, vous avez indirectement utilisé un jeu de données de test (la nouvelle image soumise à la prédiction).
Comprendre quelques problematiques autour de l'IA. Vous avez visualisé l'importance d'avoir des données variées et en quantité suffisante pour entraîner efficacement une IA et lui permettre de généraliser sa reconnaissance à des images inconnues.
La génération de Texte
Généralité
- Le Modèle : correspond aux différents modèles de LLM disponible, attention certains sont payants
- Le paramètre Aléatoire : La variation aléatoire, ou température, est un paramètre utilisé pour contrôler la créativité et la diversité des réponses générées par un modèle de langage.
Si la température est basse (proche de 0), l'IA est très prudente et choisit toujours le token le plus probable (le plus souvent en vert). Le texte sera prévisible, mais aussi souvent répétitif.
Si la température est élevée, le modèle peut choisir des tokens avec une probabilité plus faible (jaune ou rouge). Le texte sera plus créatif et inattendu, mais peut aussi devenir moins cohérent.
- Les Tokens : des groupes de caractères représentant l'unité fondamentale du texte
Un token peut être :
Un mot entier : par exemple, "maison" ou "chat".
Une partie de mot : par exemple, "ordina" et "teur" pour former "ordinateur".
Un signe de ponctuation : comme une virgule ou un point d'interrogation.
Même des espaces.
- Les Couleurs
La couleur indique l'importance du score pour chaque token.
En animation
Objectif :un modèle de langage (LLM) n'invente rien. Il fonctionne en assemblant des mots les uns après les autres. Pour chaque nouveau mot à générer, il calcule la probabilité de tous les mots possibles dans son vocabulaire et choisit celui qui a la plus forte probabilité de suivre les mots précédents.
Comment ça marche ?
On lui donne un point de départ. C'est ce qu'on appelle le prompt. Ça peut être une question, une phrase, ou un début d'histoire.
Il génère le premier mot. Le modèle analyse le prompt, puis il parcourt sa base de données pour prédire le mot qui a la plus grande chance de venir après.
Il répète l'opération. Une fois le premier mot choisi, il l'ajoute au prompt, et le processus recommence pour trouver le deuxième mot le plus probable. C'est une boucle qui se poursuit jusqu'à ce que la phrase soit terminée.
La notion de probabilité et de choix
Le principe fondamental est que la réponse de l'IA n'est rien d'autre qu'une série de tokens mis bout à bout, chacun choisi en fonction d'une probabilité.
Le principe de base : L'IA ne crée pas la réponse, elle sélectionne simplement la suite de tokens la plus probable.
Les couleurs
Vert 🟢 : Le token a une très forte probabilité d'être le suivant. Le choix est presque certain.
Jaune 🟡 : La probabilité est moyenne. Le modèle a plusieurs options plausibles.
Rouge 🔴 : Le token a une faible probabilité. Il s'agit d'un choix très peu courant.
En résumé
L'IA ne fait qu'assembler des briques de langage (les tokens) en se basant sur la probabilité. Il n'y a pas de "pensée" ni d'"imagination" derrière la réponse, juste des calculs de probabilités. C'est pour cela que les réponses peuvent parfois sembler étranges ou illogiques si les paramètres sont mal ajustés.
Selon l'Agence internationale de l'énergie, une requête sur ChatGPT consomme dix fois plus d'électricité qu'une recherche sur Google.
Comprendre les IA textuelles
Pistes de reflexion
- L’intelligence artificielle : une diversité de définitions et d’approches
- Quels enjeux pour les politiques publiques ?
- Quels enjeux éthiques ?
- Les domaines d’application pour l’éducation
- Quelles pistes de travail pour former à l’IA et l’enseigner ?
- Le tournant des IA génératives et des grands modèles de langage