Maîtrisez les Assistants d'IA Générative : Guide Essentiel pour Chercheurs INRIA

Introduction

L'intelligence artificielle (IA), apparue dans les années 1950, vise à reproduire des comportements "intelligents" à l'aide de l'ordinateur. Depuis une dizaine d'années, l'IA est surtout connue à travers l'apprentissage automatique (machine learning), et plus précisément les réseaux de neurones profonds (deep learning). Ces technologies ont connu des succès importants dans de nombreuses applications, mais l'IA recouvre un champ de méthodes beaucoup plus vaste.

Ces dernières années, l'intelligence artificielle générative (IAG) suscite un intérêt particulier, mais aussi des craintes. En effet, des assistants virtuels, tels que ChatGPT, qui est parmi les plus connus, ont d'importantes capacités conversationnelles et peuvent donner l'illusion d'une intelligence humaine. Si les précédentes IA se bornaient à une tâche bien définie, certaines IAG sont présentées aujourd'hui comme des assistants personnels généralistes.

Ce document s’adresse à tous les personnels INRAE voulant utiliser un assistant basé sur une intelligence artificielle générative (IAG) dans le contexte professionnel. Il souligne les risques et impacts que chacun doit connaître et évaluer avant de les utiliser et propose également des recommandations générales d’utilisation. Des cas d'usage ont été identifiés et aideront le lecteur à mieux cerner les opportunités et risques qu'offrent ces technologies.

Ce guide propose au lecteur des recommandations générales et spécifiques au contexte INRAE pour l’usage de solutions d’IAG, en fonction des cas d’usage les plus courants et tenant compte de la sensibilité des données traitées.

D’une façon générale, il ne faut jamais utiliser des données dont le niveau de sensibilité n’est pas « public » avec les offres gratuites en ligne. Cela reste vrai aussi pour la majorité des offres payantes.

À noter : Les différents produits (et les modèles associés) évoqués dans ce document peuvent évoluer très rapidement. Malgré le soin apporté aux messages délivrés dans ce document, il est important de garder à l’esprit que certaines recommandations pourraient devenir obsolètes dans un proche avenir.

Recommandations Générales pour l'Utilisation des IAG

De façon générale, l’utilisation d’une IAG soulève plusieurs points d’attention dont l’impact dépend des utilisations.

Notez bien que l’utilisateur est seul responsable devant la loi des contenus qu’il produit à l’aide de l’IAG et du respect de la réglementation relative à ses usages. Cette responsabilité inclut l’attribution correcte des idées et de la paternité, en veillant à l’exactitude des faits, en se basant sur des sources authentiques. L’utilisateur doit donc systématiquement vérifier l’exactitude des résultats produits. Selon les solutions choisies (interne et/ou externe), l’utilisateur doit également veiller à ce que les prompts1 ne contiennent pas d’informations sensibles comme des données confidentielles ou des données à caractère personnel (DCP).

Ainsi pour chaque usage, l’utilisateur est invité à se questionner sur les critères suivants :

Qualité et pertinence des résultats : les résultats générés dépendent de la performance de l’IAG et de ses données d’entrée (quantité, qualité, fraicheur, etc.). Des résultats biaisés, incomplets ou même erronés peuvent être obtenus.
Confidentialité et sécurité : la majorité des outils pose des questions de confidentialité et de sécurité car potentiellement soumis à des lois étrangères de transfert et d’utilisation des données. C’est le cas des outils hébergés sur des serveurs hors Union européenne mais aussi des outils hébergés dans l’Union européenne dès lors qu’ils sont édités ou simplement accessibles à une société non européenne (ou sous contrôle d’une société-mère non européenne). Il est donc important d’identifier le niveau de sensibilité des données que l’on souhaite soumettre avant d’effectuer une requête, celle-ci pouvant constituer une violation d’un secret protégé par la loi ou d’une obligation contractuelle de confidentialité. Par ailleurs, la divulgation de données est aussi susceptible de compromettre le dépôt d’un brevet ou l’existence d’un savoir-faire secret.
Transparence : les modèles d’IAG sont souvent perçus comme des « boîtes noires », ce qui rend difficile la compréhension de la manière dont les résultats sont générés et le respect des règles de rigueur et d’honnêteté propres à l’intégrité scientifique. Les systèmes d’IAG permettant de citer les sources ayant produit la réponse doivent être privilégiés.
Droits d’auteur et de propriété intellectuelle : l’utilisation de contenus protégés pour entraîner les modèles ou générer des résultats peut poser des problèmes juridiques, particulièrement importants dans le cas d’IAG ne citant pas (correctement) ses sources. Une mauvaise utilisation de l’IAG peut conduire à du plagiat (volontaire ou involontaire). Il est donc nécessaire, autant que cela est possible, de vérifier que les résultats générés n’incorporent pas des œuvres protégées par le droit d’auteur et ses droits voisins (textes, images, sons, code logiciel…), ou encore des données protégées par le droit des producteurs de bases de données (données issues d’une extraction substantielle d’une base de données) qui nécessiterait qu’INRAE obtienne une autorisation de leurs titulaires pour pouvoir les utiliser.
Impact environnemental : l’entraînement et l’utilisation de grands modèles d’IAG nécessitent des ressources importantes, ce qui a un impact environnemental direct et indirect non négligeable : consommation d’énergie et d’eau, émission de gaz à effet de serre, etc.

Pour certains cas d’usage, des outils sans IA, ni IAG, peuvent donner des résultats aussi bons que des outils mobilisant de l’IA. Pour des tâches peu complexes, il est possible d’envisager des modèles très spécialisés et de privilégier des modèles plus légers et moins énergivores comme Mistral Small, DistilBERT ou TinyBERT au lieu de versions plus lourdes comme ChatGPT.

En pratique, il est nécessaire de :

Garantir la confidentialité des données le nécessitant, en prenant garde à la diffusion non maîtrisée de données (respect du droit de propriété intellectuelle, secret des affaires, protection des données y compris à caractère personnel, respect de la vie privée, etc.).
Appliquer la même rigueur, avec ou sans IA :
- Vérifier et valider l’exactitude des réponses générées via l’usage d’IA. Cela passe par la fiabilité et la transparence de la méthode utilisée ainsi que par l’identification de biais potentiels. L’humain est toujours responsable de sa production, même avec utilisation des outils d’IA. Il convient de vérifier les sources d’information ou d’idées issues d’outils d’IA. Demander à l’IAG utilisée qu’elle cite les sources des contenus utilisés pour générer la réponse et, si une licence existe, la licence applicable à ces contenus.
- Veiller à ne pas diffuser des données non maîtrisées du fait d’hallucinations2 des outils d’IA ou en raison de sources non identifiées.
- Pouvoir documenter, lors de l’usage d’une IA, les outils IA, algorithmes, méthodes et prompts utilisés.
- Être attentif aux marquages apposés par les outils utilisant de l’IAG3. S’il y a lieu, des logos existent pour préciser le degré d’utilisation de l’IA :

Exemples de labels francophones4Exemples de labels anglophones5

Utiliser les outils d’IA avec parcimonie compte tenu des impacts environnementaux. L’usage d’une IAG n’est pas toujours pertinent, il est nécessaire d’évaluer son apport et de privilégier son usage aux cas apportant le plus de valeur ajoutée. De plus, certaines IAG permettent de différer la réponse attendue plutôt que d’avoir une réponse immédiate, ce qui permet d’économiser de la puissance de calcul.
Se former aux principes et limites des outils d’IA pour en faire un usage raisonné et responsable. Progressivement, INRAE proposera des ressources en ligne et via la formation tout au long de la vie (FTLV).
En cas de doute et lors d’usages impliquant des données sensibles, lire les conditions générales d’utilisation (CGU) avant d’utiliser un outil d’IAG, d’autant qu’elles sont régulièrement modifiées.

Ces recommandations sont valables pour tous les usages, décrits ou non dans ce document.

Focus Responsabilité Sociétale et Environnementale et IAG

Il est très difficile d’évaluer l’impact écologique (émission de gaz à effet de serre, consommation de ressources en eau, minerais et terres rares, électricité, etc.) des outils utilisant l’IAG et de les comparer précisément.

Pour évaluer cet impact, le site Compare:IA permet une première approche et propose des ordres de grandeurs.

Sasha Luccioni, chercheuse spécialisée dans l’impact environnemental de l’IA et membre de l’OECD.AI, estime qu’une IAG utilise trente fois plus d’énergie qu’un moteur de recherche classique et que créer une image en haute définition avec une IA consomme autant d’énergie que la recharge complète d’un téléphone portable.

Selon l’Agence internationale de l’énergie (AIE), les datacenters poussés par l’IA et les cryptomonnaies ont consommé près de 460 TWh d’électricité en 2022, soit 2 % de la production mondiale. Cette consommation pourrait doubler d’ici 2026.

Ainsi, l’utilisation des IAG, bien qu’elle offre de nombreuses opportunités, présente des enjeux importants en termes d’impacts environnementaux et sociaux. Certaines études scientifiques commencent à démontrer un impact sur les capacités cognitives, telle que celle d’Inria et datacraft qui souligne que « l’utilisation excessive de ces outils peut entraîner une perte progressive de compétences ou favoriser une paresse cognitive ».

Pour un usage respectueux de ces dimensions, il est crucial :

De faire preuve de discernement et de questionner le besoin réel/la pertinence avant d’utiliser une IAG compte tenu des impacts, risques, etc.
D’adopter une approche responsable, soucieuse de réduire l’empreinte écologique/environnementale des technologies utilisées.
De veiller à ce que le contenu produit ne relaie pas, malgré soi, des normes culturelles, sociales et éthiques potentiellement discriminantes ; de garantir l’équité, l’inclusion et la justice sociale.
De se former. INRAE, via la FTLV, proposera prochainement des webinaires et des formations, notamment sur les usages respectueux de l’IA.

Enfin, selon les besoins, des outils n’utilisant pas l’IAG peuvent donner des résultats aussi bons et être plus vertueux.

Focus Relatif à l'Usage de Données à Caractère Personnel

INRAE se doit de protéger les données personnelles de ses agents et de ses partenaires/tiers. Il est par ailleurs recommandé de vérifier les sources car certaines peuvent être très éloignées voire « anecdotiques » par rapport à l’information recherchée.

Globalement, l’usage du Copilot intégré à Windows n’est pas recommandé. En effet, son intégration avancée à l’écosystème Microsoft fait peser des risques quant à la sécurité et à la confidentialité des données. Enfin, les retours d’expérience collectés dans la sphère publique laissent à penser que cette solution serait moins performante en comparaison d’autres recommandées dans ce guide.

Sur la souveraineté de l’offre Mistral : les modèles proposés en SaaS sont hébergés chez des hébergeurs non souverains. Ainsi, les différentes offres de Mistral AI ne sont à utiliser que pour des données d’une sensibilité « public » uniquement. D’autres possibilités sont à privilégier telles que l’offre LLMaaS d’OUTSCALE qui propose les modèles de Mistral AI sur des hébergements souverains ou encore l’hébergement des modèles open source de Mistral AI en interne INRAE.

Cas d'Usage à l'INRAE

En complément des recommandations générales qui s’appliquent à tous les cas d’usage, le lecteur est invité à se questionner selon les cas d’usages décrits ci-après.

Pour chaque cas d’usage, des recommandations spécifiques sont précisées, ce qui peut volontairement donner à voir certaines répétitions de conseils entre plusieurs cas d’usage. De ce fait, le lecteur peut lire chaque cas d’usage séparément.

1/ Recherche d’Informations

Les moteurs de recherche conversationnels marquent une évolution majeure dans le domaine de la recherche d’informations en ligne. Ils se distinguent des moteurs traditionnels en combinant l’intelligence artificielle avec les capacités de recherche classiques. Les assistants IAG sont capables de rechercher et synthétiser des informations, à partir de requêtes formulées en langage naturel, sans que l’utilisateur ait besoin de maîtriser le vocabulaire du domaine. S’ils ne se substituent pas à un moteur de recherche, ils peuvent le compléter avantageusement. En effet, ces outils innovants peuvent générer des réponses synthétiques et personnalisées, plutôt que de simples listes de liens. Leur interface conversationnelle permet aux utilisateurs d’engager un « dialogue », avec la possibilité de poser des questions de suivi pour approfondir leurs recherches.

Ces moteurs se révèlent particulièrement utiles pour l’analyse et la synthèse de grandes quantités d’informations, la création de contenus et l’organisation thématique des recherches. Ils peuvent également traiter des documents et des images fournies par l’utilisateur, enrichissant ainsi les possibilités de recherche et d’analyse.

Un assistant IAG peut également servir à la recherche d’information au sein d’un corpus de documents (exemple : publications scientifiques d’une unité de recherche). Pour garantir que les informations soient bien extraites du corpus et que les résultats ne soient pas générés à partir des « connaissances » de l’IAG, une solution du type RAG8 doit dans ce cas être privilégiée.

Principes à respecter pour toute recherche d’informations :

il est indispensable de croiser les sources et vérifier les informations obtenues : une IAG doit toujours être utilisée avec précaution et les résultats analysés de façon critique et rigoureuse ;
il est important de choisir l’assistant IAG le plus adapté à l’utilisation souhaitée. En particulier, la transparence sur les sources et la confidentialité des recherches sont des critères déterminants. Ainsi, il faut être vigilant car certains outils stockent les requêtes effectuées et peuvent même les partager.

1.1/ Recherche d’Informations (cas général)

Société	Produit	Modèle(s) utilisé(s) (LLM)	Description	Politique tarifaire	Sensibilité des données
Mistral AI	Le Chat	Plusieurs modèles Mistral de différentes tailles suivant le niveau de tarification	Le Chat offre un assistant IA personnalisable (recherche web, génération d’image, interpréteur de code, canvas)	Free, Pro, Team ou Enterprise	Public
Open AI	ChatGPT	Plusieurs modèles GPT accessibles suivant le niveau…

L'Écosystème Scientifique et les Pratiques des Chercheurs à l'Ère du Numérique

La Science comme Activité Sociale et Collective

La science, selon Silberstein, peut être vue comme une activité générique, un outil de mesure, un système d'accroissement de notre acuité, un nominalisme contrôlé, un système de pensée, la mesure et la méthode d'un pyrrhonisme rationnel et tempéré, et l'antidote au sens commun. Popper ajoute que l'on ne peut parler d'activités ou de connaissances scientifiques qu'à partir du moment où ces dernières sont basées sur des « expériences cruciales », lesquelles offrent la possibilité d’être réfutées.

Bronner souligne que la science est une méthode de négociation intellectuelle avec le réel relevant fondamentalement d’un travail collectif d’appréciation/correction de la rationalité. Cette dimension collective est d’autant plus prégnante que la rationalité du chercheur est limitée par sa condition temporelle, d’un point de vue culturel, et par notre appareil cognitif.

Berthelot considère la science comme une activité sociale dont la caractéristique est de produire de la connaissance scientifique, c’est-à-dire des « vérités » acceptées et certifiées par autrui. Cette activité scientifique est résolument intentionnelle et intégrée à une situation d’interaction, soumise à des normes collectives et à des règles techniques et sociales.

Les Pratiques de Rédaction des Chercheurs à l'Ère Numérique

Le numérique a transformé le secteur de l'édition scientifique, offrant aux chercheurs un accès élargi à des contenus et documents scientifiques. Cet accès comprend des ressources éditoriales payantes, des ressources scientifiques en libre accès et des ressources issues de la littérature grise.

Les pratiques induites par le numérique se traduisent-elles par une « culture de l’information partagée » entre les disciplines ? Les différences disciplinaires ont-elles une influence sur les pratiques d’écriture ?

Dans une communauté scientifique, l’élaboration du sens doit se comprendre comme un processus continu de communication, d’interprétation et d’adaptation mutuelle. Chaque discipline possède des caractéristiques propres à sa communauté de pratique (vocable, processus de travail, instrumentation, collaborations…), et ces différenciations ont une influence sur les pratiques d’écriture.

Les Enjeux Actuels de la Recherche Française

La France a fait du développement et du partage des connaissances un élément central de son identité. Cependant, ce rayonnement est aujourd'hui remis en cause par la situation objective de notre système public de recherche et d'innovation. Il est essentiel de renforcer notre capacité collective à répondre aux défis scientifiques contemporains.

La crise climatique et écologique nous oblige à lutter contre l'épuisement des ressources, le déclin de la biodiversité et à faire face aux évolutions des milieux naturels et humains. Le développement des technologies de l'information et de la communication nous a donné de formidables outils, mais a également ouvert la voie à une manipulation sans précédent de l'information.

La recherche française doit contribuer à l'émergence d'une société plus durable, plus inclusive et plus résiliente par la recherche de solutions adaptées aux territoires et socialement acceptables aux défis économiques, sanitaires et environnementaux.

L'effort de recherche global en France, mesuré par le ratio entre les dépenses intérieures de recherche et développement (DIRD) et le produit intérieur brut (PIB), avoisine 2,2 % et régresse légèrement depuis plusieurs années. Il est donc crucial de revaloriser les carrières scientifiques et de réinvestir dans la connaissance.

tags: #test #paternite #chercheur #inria #conditions

Guide du Bon Usage des Assistants à Base d'Intelligence Artificielle Générative (IAG) pour les Chercheurs à l'INRIA

Introduction

Recommandations Générales pour l'Utilisation des IAG

Focus Responsabilité Sociétale et Environnementale et IAG

Focus Relatif à l'Usage de Données à Caractère Personnel

Cas d'Usage à l'INRAE

1/ Recherche d’Informations

Principes à respecter pour toute recherche d’informations :

1.1/ Recherche d’Informations (cas général)

L'Écosystème Scientifique et les Pratiques des Chercheurs à l'Ère du Numérique

La Science comme Activité Sociale et Collective

Les Pratiques de Rédaction des Chercheurs à l'Ère Numérique

Les Enjeux Actuels de la Recherche Française

Articles populaires:

Guide du Bon Usage des Assistants à Base d'Intelligence Artificielle Générative (IAG) pour les Chercheurs à l'INRIA

Introduction

Recommandations Générales pour l'Utilisation des IAG

Focus Responsabilité Sociétale et Environnementale et IAG

Focus Relatif à l'Usage de Données à Caractère Personnel

Cas d'Usage à l'INRAE

1/ Recherche d’Informations

Principes à respecter pour toute recherche d’informations :

1.1/ Recherche d’Informations (cas général)

L'Écosystème Scientifique et les Pratiques des Chercheurs à l'Ère du Numérique

La Science comme Activité Sociale et Collective

Les Pratiques de Rédaction des Chercheurs à l'Ère Numérique

Les Enjeux Actuels de la Recherche Française

Articles populaires:

Share: