Vittascience et IA : Différence entre versions

Version du 16 septembre 2025 à 07:42

Sommaire

1 Tutoriel sur le site Vittascience et sur l'IA
2 Préambule
3 Entrainer une IA à reconnaitre des images
4 La génération de Texte
- 4.1 Généralité
- 4.2 En animation
5 Comprendre les IA textuelles
6 Pistes de reflexion

Tutoriel sur le site Vittascience et sur l'IA

https://fr.vittascience.com/

La création de ce tutoriel a consisté principalement à mettre par écrit les informations présentées dans la vidéo de VittaScience.

https://www.youtube.com/watch?v=EDtvcOl_PhA

Préambule

L'utilisation d'une caméra avec des mineurs, même si les images sont conservées localement, soulève d'importants enjeux liés au RGPD.

En plus de la protection des données personnelles, l'utilisation d'images de mineurs relève du droit à l'image, qui exige l'autorisation parentale.

Entrainer une IA à reconnaitre des images

Aller sur le site vittascience
dans la barre en haut, cliquer sur IA
Cliquer sur Images

Objectif

Acquérir des compétences pratiques en manipulation d'outils d'IA éducatifs.
Comprendre le concept de "jeu de données" (images d'entraînement et de test) pour l'apprentissage d'une IA.
Démystifier le concept de l'intelligence artificielle

Définition

Qu'est-ce qu'un jeu de données : c'est une GRANDE collection de photos, on dit qu'elles sont étiquetées, c'est-à-dire qu'on dit à l'ordinateur ce qu'il y a sur chaque photo, ceci est un carré, ceci est un rond, ceci est un chat etc, l'ordinateur utilise ce jeu de données pour apprendre à identifier les caractéristiques de chaque catégorie et pour ensuite reconnaitre de nouvelles photos qu'il n'a jamais vues ?

Étape 1

Permettre de comprendre le principe d'un jeu de données :
les données peuvent être :

                 * des images téléchargées depuis votre ordinateur 
                 * Des captures d'images depuis la caméra de votre ordinateur 
                 * des images présentes dans la banque de vittascience

Pour qu'un modèle apprenne à catégoriser une information, il lui faut au minimum 2 catégories. Nous allons en créer 2 (à gauche de l'écran) cliquer sur l'image pour l'emplacement des étapes :

ROND

CARRÉ

Puis, nous allons commencer à capturer des images (à travers la caméra de votre ordinateur ou, en utilisant les modèles déjà présent, à défaut, en les récupérant sur votre ordinateur).

Pour qu'un modèle soit efficace, il lui faut une grande quantité d'images dans chaque catégorie, mais déjà avec 2 photos ça fonctionne déjà.

Placez un post-it avec un rond dessiné dessus dans la zone visible par la caméra, puis cliquez sur le bouton "prendre une photo" et capturez ensuite entre 10 et 15 photos de ronds. Ils peuvent être dessinés avec plusieurs feutres, découpés dans une autre forme. Il faut varier les types de ronds pour que notre modèle soit efficace à reconnaître les ronds qu'il ne connaît pas.

Refaites la même opération dans la deuxième catégorie, mais avec des carrés.

Étape 2

Maintenant que nous avons notre jeu de données et qu'il contient suffisamment de données pour qu'il puisse faire des prédictions, cliquer sur le bouton "entrainer le modèle " (au centre de l'écran).

Étape 3

Placez un nouvel objet (il faut le dessiner sur post-it, par exemple) dans la zone visible par la caméra et observez le pourcentage de prédiction (à droite de l'écran). Plus le pourcentage est élevé, plus le modèle est précis.

Cliquer sur le bouton 'Zones d’influence’ et montrer à nouveau des objets à la caméra. Les zones de l’image en surbrillance correspondent à celles qui sont les plus déterminantes dans les prédictions de l’IA.

Idées d'utilisation avec un modèle biaisé

On crée un nouveau modèle en utilisant la banque d'image, en prenant les femmes (biaisé) et les hommes (biaisé), on entraine le modèle et si on met une femme avec les cheveux court alors le modèle IA me reconnait comme un homme, car les données d'entrainement identifient un homme grâce aux cheveux courts et une femme avec les cheveux longs.

Grâce à ce modèle, on peut introduire les biais d'une IA, et expliquer les problématiques associés

Inéquité et discrimination : un biais de genre

C'est la problématique la plus grave. Une IA peut, par exemple, discriminer certaines personnes lors d'un recrutement, de l'octroi d'un prêt ou d'une évaluation de risque. Si un modèle est entraîné avec des données historiques où les hommes étaient majoritairement embauchés pour certains postes, il pourrait par la suite privilégier les candidatures masculines.

Manque de fiabilité : un biais de données

Un modèle biaisé est un modèle peu fiable. Les prédictions qu'il fait pour les groupes sous-représentés ou exclus de ses données d'entraînement peuvent être fausses ou de mauvaise qualité. Par exemple, un système de reconnaissance faciale pourrait avoir un taux d'erreur beaucoup plus élevé pour les personnes à la peau foncée s'il a été principalement entraîné sur des visages de personnes à la peau claire.

Renforcement des stéréotypes : Biais de stéréotype

L'IA peut renforcer les stéréotypes existants. Un modèle de génération de texte, entraîné sur des données qui associent les métiers scientifiques aux hommes et les métiers de la santé aux femmes, pourrait systématiquement produire des phrases stéréotypées.

Conclusion

En réalisant ces manipulations, vous avez pu :

Acquérir des compétences pratiques en manipulation d'outils d'IA éducatifs. Vous avez interagi avec l'interface de VittaScience pour créer des catégories, capturer des images via votre webcam ou depuis votre ordinateur, et lancer l'entraînement d'un modèle d'IA. Cette expérience vous a permis de découvrir comment des outils en ligne peuvent simplifier l'approche de concepts complexes de l'IA.

Comprendre le concept de "jeu de données" (images d'entraînement et de test) pour l'apprentissage d'une IA. En constituant vos propres collections d'images de ronds et de carrés, vous avez créé un jeu de données d'entraînement. Ces images étiquetées ont servi de base à l'apprentissage de votre modèle. Lorsque vous avez ensuite testé le modèle avec de nouvelles images, vous avez indirectement utilisé un jeu de données de test (la nouvelle image soumise à la prédiction).

Comprendre quelques problematiques autour de l'IA. Vous avez visualisé l'importance d'avoir des données variées et en quantité suffisante pour entraîner efficacement une IA et lui permettre de généraliser sa reconnaissance à des images inconnues.

La génération de Texte

Généralité

Capture d’écran 2025-09-16 à 08.21.11.png

Le Modèle : correspond aux différents modèles de LLM disponible, attention certains sont payants

Le paramètre Aléatoire : La variation aléatoire, ou température, est un paramètre utilisé pour contrôler la créativité et la diversité des réponses générées par un modèle de langage.

Si la température est basse (proche de 0), l'IA est très prudente et choisit toujours le token le plus probable (le plus souvent en vert). Le texte sera prévisible, mais aussi souvent répétitif.

Si la température est élevée, le modèle peut choisir des tokens avec une probabilité plus faible (jaune ou rouge). Le texte sera plus créatif et inattendu, mais peut aussi devenir moins cohérent.

Les Tokens : des groupes de caractères représentant l'unité fondamentale du texte

Un token peut être :
Un mot entier : par exemple, "maison" ou "chat".
Une partie de mot : par exemple, "ordina" et "teur" pour former "ordinateur".
Un signe de ponctuation : comme une virgule ou un point d'interrogation.
Même des espaces.

Les Couleurs

La couleur indique l'importance du score pour chaque token.

En animation

Objectif :un modèle de langage (LLM) n'invente rien. Il fonctionne en assemblant des mots les uns après les autres. Pour chaque nouveau mot à générer, il calcule la probabilité de tous les mots possibles dans son vocabulaire et choisit celui qui a la plus forte probabilité de suivre les mots précédents.

Comment ça marche ?

On lui donne un point de départ. C'est ce qu'on appelle le prompt. Ça peut être une question, une phrase, ou un début d'histoire.

Il génère le premier mot. Le modèle analyse le prompt, puis il parcourt sa base de données pour prédire le mot qui a la plus grande chance de venir après.

Il répète l'opération. Une fois le premier mot choisi, il l'ajoute au prompt, et le processus recommence pour trouver le deuxième mot le plus probable. C'est une boucle qui se poursuit jusqu'à ce que la phrase soit terminée.

La notion de probabilité et de choix

Le principe fondamental est que la réponse de l'IA n'est rien d'autre qu'une série de tokens mis bout à bout, chacun choisi en fonction d'une probabilité.

Le principe de base : L'IA ne crée pas la réponse, elle sélectionne simplement la suite de tokens la plus probable.

Les couleurs

Vert 🟢 : Le token a une très forte probabilité d'être le suivant. Le choix est presque certain.

Jaune 🟡 : La probabilité est moyenne. Le modèle a plusieurs options plausibles.

Rouge 🔴 : Le token a une faible probabilité. Il s'agit d'un choix très peu courant.

En résumé

L'IA ne fait qu'assembler des briques de langage (les tokens) en se basant sur la probabilité. Il n'y a pas de "pensée" ni d'"imagination" derrière la réponse, juste des calculs de probabilités. C'est pour cela que les réponses peuvent parfois sembler étranges ou illogiques si les paramètres sont mal ajustés.

Selon l'Agence internationale de l'énergie, une requête sur ChatGPT consomme dix fois plus d'électricité qu'une recherche sur Google.

Comprendre les IA textuelles

Pistes de reflexion

L’intelligence artificielle : une diversité de définitions et d’approches
Quels enjeux pour les politiques publiques ?
Quels enjeux éthiques ?
Les domaines d’application pour l’éducation
Quelles pistes de travail pour former à l’IA et l’enseigner ?
Le tournant des IA génératives et des grands modèles de langage

@@ Ligne 96 : / Ligne 96 : @@
 == La génération de Texte ==
-Instructions générales pour utiliser un modèle de langage IA (comme un chatbot ou une interface web) :
+===Généralité===
-* Identifiez votre besoin : Quel type de texte souhaitez-vous générer ? (e-mail, article de blog, résumé, poème, etc.)
-* Choisissez votre outil : Il existe des outils gratuits et payants (par exemple, ChatGPT, Bard, Claude, Copy.ai, Jasper.ai, etc.).
+[[Fichier:Capture d’écran 2025-09-16 à 08.21.11.png|cadre|centré]]
-* Fournissez une "invite" (prompt) claire : C'est la partie la plus importante ! Plus votre instruction est précise, meilleur sera le résultat.
-Exemple d'invite : "Rédige un paragraphe de 150 mots sur l'importance de la biodiversité pour les écosystèmes, en utilisant un ton informatif et accessible."
+* Le Modèle : correspond aux différents modèles de LLM disponible, attention certains sont payants <br>
-====Éléments à inclure dans l'invite :====
-# Sujet : De quoi doit parler le texte ?
+* Le paramètre Aléatoire : La variation aléatoire, ou température, est un paramètre utilisé pour contrôler la créativité et la diversité des réponses générées par un modèle de langage. <br>
-# Format : Article, liste, e-mail, etc.
-# Longueur : Nombre de mots, de paragraphes, de phrases.
+Si la température est basse (proche de 0), l'IA est très prudente et choisit toujours le token le plus probable (le plus souvent en vert). Le texte sera prévisible, mais aussi souvent répétitif.<br>
-# Ton : Formel, informel, humoristique, informatif, persuasif, etc.
-# Public cible : Pour qui le texte est-il destiné ?
+Si la température est élevée, le modèle peut choisir des tokens avec une probabilité plus faible (jaune ou rouge). Le texte sera plus créatif et inattendu, mais peut aussi devenir moins cohérent.<br>
-# Mots-clés : Des termes spécifiques à inclure.
-# Instructions spécifiques : "Évite les jargons", "utilise de courtes phrases", etc.
+* Les Tokens : des groupes de caractères représentant l'unité fondamentale du texte <br>
+Un token peut être :<br>
+Un mot entier : par exemple, "maison" ou "chat".<br>
+Une partie de mot : par exemple, "ordina" et "teur" pour former "ordinateur".<br>
+Un signe de ponctuation : comme une virgule ou un point d'interrogation.<br>
+Même des espaces.<br>
+* Les Couleurs <br>
+La couleur indique l'importance du score pour chaque token.
+===En animation===
+Objectif :un modèle de langage (LLM) n'invente rien. Il fonctionne en assemblant des mots les uns après les autres. Pour chaque nouveau mot à générer, il calcule la probabilité de tous les mots possibles dans son vocabulaire et choisit celui qui a la plus forte probabilité de suivre les mots précédents.
+====Comment ça marche ?====
+On lui donne un point de départ. C'est ce qu'on appelle le prompt. Ça peut être une question, une phrase, ou un début d'histoire.
+Il génère le premier mot. Le modèle analyse le prompt, puis il parcourt sa base de données pour prédire le mot qui a la plus grande chance de venir après.
+Il répète l'opération. Une fois le premier mot choisi, il l'ajoute au prompt, et le processus recommence pour trouver le deuxième mot le plus probable. C'est une boucle qui se poursuit jusqu'à ce que la phrase soit terminée.
+====La notion de probabilité et de choix====
+Le principe fondamental est que la réponse de l'IA n'est rien d'autre qu'une série de tokens mis bout à bout, chacun choisi en fonction d'une probabilité.
+Le principe de base : L'IA ne crée pas la réponse, elle sélectionne simplement la suite de tokens la plus probable.
+====Les couleurs ====
+Vert 🟢 : Le token a une très forte probabilité d'être le suivant. Le choix est presque certain.
+Jaune 🟡 : La probabilité est moyenne. Le modèle a plusieurs options plausibles.
+Rouge 🔴 : Le token a une faible probabilité. Il s'agit d'un choix très peu courant.
+====En résumé====
+L'IA ne fait qu'assembler des briques de langage (les tokens) en se basant sur la probabilité. Il n'y a pas de "pensée" ni d'"imagination" derrière la réponse, juste des calculs de probabilités. C'est pour cela que les réponses peuvent parfois sembler étranges ou illogiques si les paramètres sont mal ajustés.
-IL EST TRÈS IMPORTANT de réviser et éditez : Le texte généré par l'IA peut nécessiter des ajustements pour le rendre parfait. Vérifiez la cohérence, la pertinence, la grammaire et le style. (AYEZ L ESPRIT CRITIQUE)
 ==== Selon l'Agence internationale de l'énergie, une requête sur ChatGPT consomme dix fois plus d'électricité qu'une recherche sur Google. ====
 ==Comprendre les IA textuelles ==