Microsoft est accusée d'utiliser le contenu de Word et d'Excel en ligne pour former ses différents modèles d'IA avec «Expériences connectées»

Le bouton de désactivation n'est pas si facile à trouver

Le 26 novembre 2024 à 22:34, par Stéphane le calme

164PARTAGES

Microsoft est accusée d'utiliser le contenu de Word et d'Excel en ligne pour former ses différents modèles d'IA, à moins que vous n'y renonciez.
l'entreprise nie s'en être servi

La fonctionnalité « Expériences connectées » de Microsoft Office, activée par défaut, a été critiquée pour avoir potentiellement utilisé le contenu utilisateur pour entraîner l'IA sans l'expliquer clairement. Microsoft nie utiliser les données des clients pour entraîner l'IA, affirmant qu'elle est destinée aux fonctions requises par Internet, comme la co-création de documents. Les critiques mettent en avant le contrat de services de Microsoft, qui accorde à l'entreprise des droits sur le contenu utilisateur. Pour se désinscrire, il faut accéder à des paramètres spécifiques.

Aux utilisateurs d'Office, Microsoft propose des expériences connectées qui analysent votre contenu : « Les expériences qui analysent votre contenu sont des expériences qui utilisent le contenu de votre bureau pour vous fournir des recommandations de conception, des suggestions de révision, des aperçus de données et d'autres fonctions similaires. Par exemple, le Traducteur ou le Concepteur PowerPoint ». Cette fonctionnalité, activée par défaut, a été accusée de récupérer le contenu créé par les utilisateurs pour former ses systèmes d'IA internes.

L'expert Linux @nixcraft sur X a qualifié les « Expériences connectées » de « contraires à l'éthique » car le nom de la fonctionnalité ne dit pas qu'il s'agit uniquement de formation à l'IA. La base de connaissances de Microsoft indique que les expériences connectées sont « conçues pour vous permettre de créer, de communiquer et de collaborer plus efficacement » en analysant votre contenu. Il n'est fait aucune mention de l'utilisation de l'IA ou des données pour les fonctionnalités Copilot ou pour former les modèles d'IA de Microsoft.

Attention : Microsoft Office, comme de nombreuses entreprises ces derniers mois, a sournoisement activé une fonction « opt-out » qui récupère vos documents Word et Excel pour entraîner ses systèmes d'intelligence artificielle internes. Cette fonction est activée par défaut et vous devez décocher manuellement une case pour la désactiver. Si vous êtes un écrivain qui utilise MS Word pour rédiger des contenus propriétaires (articles de blog, romans ou tout autre travail que vous avez l'intention de protéger par des droits d'auteur et/ou de vendre), vous voudrez désactiver cette fonction immédiatement.

Plusieurs médias dans la presse spécialisée ont repris ces allégations, notant que dans le cadre de son fonctionnement normal, l'utilitaire comporte une fonction sournoise dans laquelle elle « recueille automatiquement des données à partir de fichiers Word et Excel pour entraîner les modèles d'IA de l'entreprise ». La collecte de données est apparemment activée par défaut, ce qui signifie que le contenu des utilisateurs peut être utilisé pour entraîner les algorithmes d'IA, à moins qu'il ne soit spécifiquement désactivé. La désactivation elle-même serait « un processus très alambiqué ».

Selon l'un des rapports, ce paramètre par défaut permet à Microsoft d'utiliser toutes sortes de documents, qu'il s'agisse « d'articles, de romans ou d'autres œuvres destinées à être protégées par le droit d'auteur ou à des fins commerciales, sans consentement explicite ».

Microsoft Connected Experiences collecte vos fichiers Word et Excel à des fins d'entraînement à l'IA. Pourquoi ne pas parler de formation à l'IA ? Pourquoi utiliser de tels mots ? Il s'agit d'une pratique contraire à l'éthique suivie par une entreprise pesant des milliards de dollars. Comment cela peut-il être légal ? Je suis bien content de ne pas avoir Windows OS ou MS Office.

Microsoft Connected Experiences means they collect your Word and Excel files for AI training. Why not call it AI training? Why use such words? This is an unethical practice followed by a trillion-dollar corporation. How is this even legal? I am so glad that I don’t have Windows…
— nixCraft 🐧 (@nixcraft) November 24, 2024

Les conséquences sont énormes pour tous ceux qui utilisent ces outils bien connus pour générer du contenu propriétaire, qu'il s'agisse de documents écrits ou, peut-être, de données financières sensibles. Le problème est que lorsqu'un élément de contenu est utilisé pour former l'une des IA actuelles, comme le Copilot de Microsoft, une sorte d'empreinte est laissée dans l'algorithme. Lorsqu'un utilisateur différent demande des informations à un moment donné dans le futur, il est possible que votre contenu, aussi sensible soit-il, ou les informations propriétaires qu'il contient, fassent « surface » sous une forme ou une autre dans la réponse de l'IA générative.

Microsoft a répondu à ces accusations via le compte officiel @Microsoft365 sur les réseaux sociaux, en niant ces allégations. « Nous n'utilisons pas les données des clients pour former les LLM », a déclaré Microsoft. Selon l'entreprise, « Microsoft Connected Experiences » ne concerne pas les outils d'IA générative ni la formation. « Ce paramètre active uniquement les fonctionnalités nécessitant un accès à Internet, comme la co-création d'un document. »

In the M365 apps, we do not use customer data to train LLMs. This setting only enables features requiring internet access like co-authoring a document. https://t.co/o9DGn9QnHb
— Microsoft 365 (@Microsoft365) November 25, 2024

Cependant, comme le souligne Tom's Hardware, Microsoft 365 et Microsoft Connected Experiences sont couverts par le contrat de services de Microsoft, qui confère à l'entreprise tous les droits de propriété intellectuelle sur l'ensemble de votre contenu.

« Dans la mesure nécessaire pour vous fournir les Services et à d'autres, pour vous protéger et protéger les Services, et pour améliorer les produits et services Microsoft, vous accordez à Microsoft une licence de propriété intellectuelle mondiale et libre de droits pour utiliser votre Contenu, par exemple, pour faire des copies, conserver, transmettre, reformater, afficher et distribuer via des outils de communication votre Contenu sur les Services », peut-on lire dans le contrat.

La réaction de Microsoft

Microsoft a démenti les affirmations selon lesquelles il alimente en informations privées de grands modèles de langage. Les données de Microsoft 365 peuvent désormais être automatiquement téléchargées et traitées pour offrir des « expériences connectées » qui, selon Microsoft, « vous permettront de créer, de communiquer et de collaborer plus efficacement ».

Le 21 octobre, Microsoft a publié sur son blog des informations détaillées sur l'expérience connectée, qui semblent avoir évoqué le souvenir de Recall, un outil qui prend des clichés de l'écran des utilisateurs toutes les quelques secondes et qui a été décrit comme un « cauchemar en matière de protection de la vie privée ».

Enfouie au plus profond de la section confidentialité des paramètres d'Office 365 se trouve une option d'expérience connectée qui est activée par défaut pour les clients américains (il faut vérifier pour les autres pays). Dans ce menu, on peut également lire en gras : « Votre vie privée est importante ». Si les utilisateurs ne choisissent pas expressément de désactiver cette fonctionnalité, les données des documents sont récoltées et traitées - ce qui a déclenché la panique à l'idée qu'elles pourraient être utilisées pour entraîner Copilot et d'autres modèles d'IA.

Des allégations concernant le scrapping de données par Microsoft ont circulé sur les médias sociaux au cours du week-end

« Cela ne peut pas être vrai », a écrit Florian Roth, responsable de la recherche chez Nextron Systems. « Alors que les entreprises sont occupées à appliquer des politiques d'IA pour protéger les données confidentielles, Microsoft active discrètement cette fonctionnalité par défaut et l'intitule « Votre vie privée est importante ».

« Il est incroyable que Microsoft ait discrètement activé cette fonction alors que tout le monde se concentrait sur sa fonction d'IA 'Recall' », poursuit-il.

Microsoft reste vague sur ce qu'elle fait des données qu'elle recueille, même s'il ne fait aucun doute qu'elle les recueille.

« Les expériences connectées qui analysent votre contenu sont des expériences qui utilisent votre contenu Office pour vous fournir des recommandations de conception, des suggestions d'édition, des informations sur les données et des fonctionnalités similaires », explique Microsoft.

Avec les applications et services Web, les réseaux sociaux, les moteurs de recherche et bien d'autres choses encore, plusieurs acteurs majeurs du secteur de la technologie et de l'IA ont été accusés à juste titre d'avoir récupéré des données utilisateur pour entraîner l'IA. Le PDG de Microsoft AI, Mustafa Suleyman, a récemment déclaré que tout contenu sur le Web « est un usage équitable » pour la formation, la reproduction et plus encore de l'IA. Tout le reste, y compris les données que les gens choisissent activement de ne pas partager ou de cocher une case « ne pas récupérer », est une « zone grise ». De plus, il appartient aux tribunaux de décider quelles données sont interdites.

Revenons à Microsoft Connected Experiences. L'entreprise a déclaré qu'elle n'utilisait pas vos documents Word pour entraîner des modèles d'IA. Néanmoins, si vous souhaitez vous désinscrire, vous devez accéder à Fichier > Options > Centre de gestion de la confidentialité > Paramètres du Centre de gestion de la confidentialité > Options de confidentialité > Paramètres de confidentialité > Expériences connectées facultatives > Décochez la case : « Activer les expériences connectées facultatives ».

Que sont les expériences connectées ?

En parcourant les « expériences » de Microsoft, nous n'avons pas trouvé une qui mentionne explicitement l'entraînement de données d'IA (mais n'hésitez pas à le préciser si vous avez trouvé le contraire). D'ailleurs, certains semblent ne pas avoir trouvé la formulation qui expliquerait cet enchainement.

That's not the wording I'm seeing. pic.twitter.com/8IrVfEip3e
— Pharaoh (@HalalPharaoh) November 24, 2024

Les cas d'utilisation mentionnés qui « analysent votre contenu » comprennent l'application automatique d'étiquettes de sensibilité ou une fonction qui scanne les cartes de visite pour en extraire des informations.

Néanmoins, un utilisateur inquiet a posé une question sur la politique de Microsoft en matière de formation à l'IA sur son forum d'assistance, où un agent a admis que sa position n'était pas tout à fait claire. Il a écrit :

« À ma connaissance, Microsoft n'a pas fourni de détails détaillés accessibles au public sur les types spécifiques d'informations personnelles utilisées pour former ses modèles d'IA. Les informations relatives à l'utilisation des données pour l'entraînement de l'IA sont souvent vagues en raison de la nature des politiques de confidentialité et des conditions de service.

« Cependant, nous ne pouvons trouver que des indications générales sur la manière dont Microsoft traite les données personnelles. Mais pour des raisons de confidentialité, il se peut qu'elle ne fournisse pas de détails précis sur les données spécifiquement utilisées pour l'apprentissage de l'IA. »

Dans sa déclaration de confidentialité, Microsoft indique : « Dans le cadre de nos efforts pour améliorer et développer nos produits, nous pouvons utiliser vos données pour développer et entraîner nos modèles d'IA. »

Sur une page expliquant sa politique en matière d'entraînement à l'IA, la société promet qu'elle n'entraîne pas les modèles d'IA Copilot à partir de « nos clients commerciaux, ou de toute donnée provenant d'utilisateurs connectés à un compte organisationnel M365/EntraID » ou « d'utilisateurs connectés avec des abonnements personnels ou familiaux M365 ».

Un porte-parole de Microsoft a explicitement démenti les allégations selon lesquelles l'entreprise utilisait les données M365 pour entraîner des modèles d'IA et a déclaré : « Dans les applications grand public et commerciales de Microsoft 365, les modèles d'IA ne sont pas utilisés : « Dans les applications grand public et commerciales de Microsoft 365, Microsoft n'utilise pas les données des clients pour entraîner des modèles de langage de grande taille sans leur autorisation. »

Sources : expériences connectées dans Office, Microsoft Privacy Statement, Microsoft Community, politique de Microsoft sur la formation de l'IA

Et vous ?

Quelle lecture faites-vous de la situation ?

Comment ce genre de pratiques affecte-t-il la réputation de Microsoft auprès de ses utilisateurs et du grand public ?

Pensez-vous que ce scandale potentiel incitera Microsoft à changer de politique, ou l’entreprise continuera-t-elle sur cette voie si les critiques restent limitées ?

Vous avez lu gratuitement 11 605 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :