
Aux utilisateurs d'Office, Microsoft propose des expériences connectées qui analysent votre contenu : « Les expériences qui analysent votre contenu sont des expériences qui utilisent le contenu de votre bureau pour vous fournir des recommandations de conception, des suggestions de révision, des aperçus de données et d'autres fonctions similaires. Par exemple, le Traducteur ou le Concepteur PowerPoint ». Cette fonctionnalité, activée par défaut, a été accusée de récupérer le contenu créé par les utilisateurs pour former ses systèmes d'IA internes.
L'expert Linux @nixcraft sur X a qualifié les « Expériences connectées » de « contraires à l'éthique » car le nom de la fonctionnalité ne dit pas qu'il s'agit uniquement de formation à l'IA. La base de connaissances de Microsoft indique que les expériences connectées sont « conçues pour vous permettre de créer, de communiquer et de collaborer plus efficacement » en analysant votre contenu. Il n'est fait aucune mention de l'utilisation de l'IA ou des données pour les fonctionnalités Copilot ou pour former les modèles d'IA de Microsoft.
Attention : Microsoft Office, comme de nombreuses entreprises ces derniers mois, a sournoisement activé une fonction « opt-out » qui récupère vos documents Word et Excel pour entraîner ses systèmes d'intelligence artificielle internes. Cette fonction est activée par défaut et vous devez décocher manuellement une case pour la désactiver. Si vous êtes un écrivain qui utilise MS Word pour rédiger des contenus propriétaires (articles de blog, romans ou tout autre travail que vous avez l'intention de protéger par des droits d'auteur et/ou de vendre), vous voudrez désactiver cette fonction immédiatement.
Plusieurs médias dans la presse spécialisée ont repris ces allégations, notant que dans le cadre de son fonctionnement normal, l'utilitaire comporte une fonction sournoise dans laquelle elle « recueille automatiquement des données à partir de fichiers Word et Excel pour entraîner les modèles d'IA de l'entreprise ». La collecte de données est apparemment activée par défaut, ce qui signifie que le contenu des utilisateurs peut être utilisé pour entraîner les algorithmes d'IA, à moins qu'il ne soit spécifiquement désactivé. La désactivation elle-même serait « un processus très alambiqué ».
Selon l'un des rapports, ce paramètre par défaut permet à Microsoft d'utiliser toutes sortes de documents, qu'il s'agisse « d'articles, de romans ou d'autres œuvres destinées à être protégées par le droit d'auteur ou à des fins commerciales, sans consentement explicite ».
Microsoft Connected Experiences collecte vos fichiers Word et Excel à des fins d'entraînement à l'IA. Pourquoi ne pas parler de formation à l'IA ? Pourquoi utiliser de tels mots ? Il s'agit d'une pratique contraire à l'éthique suivie par une entreprise pesant des milliards de dollars. Comment cela peut-il être légal ? Je suis bien content de ne pas avoir Windows OS ou MS Office.
Les conséquences sont énormes pour tous ceux qui utilisent ces outils bien connus pour générer du contenu propriétaire, qu'il s'agisse de documents écrits ou, peut-être, de données financières sensibles. Le problème est que lorsqu'un élément de contenu est utilisé pour former l'une des IA actuelles, comme le Copilot de Microsoft, une sorte d'empreinte est laissée dans l'algorithme. Lorsqu'un utilisateur différent demande des informations à un moment donné dans le futur, il est possible que votre contenu, aussi sensible soit-il, ou les informations propriétaires qu'il contient, fassent « surface » sous une forme ou une autre dans la réponse de l'IA générative.
Microsoft a répondu à ces accusations via le compte officiel @Microsoft365 sur les réseaux sociaux, en niant ces allégations. « Nous n'utilisons pas les données des clients pour former les LLM », a déclaré Microsoft. Selon l'entreprise, « Microsoft Connected Experiences » ne concerne pas les outils d'IA générative ni la formation. « Ce paramètre active uniquement les fonctionnalités nécessitant un accès à Internet, comme la co-création d'un document. »
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">In the M365 apps, we do not use customer data to train LLMs. This setting only enables features requiring internet access like co-authoring a document. <a href="https://t.co/o9DGn9QnHb">https://t.co/o9DGn9QnHb</a></p>— Microsoft 365 (@Microsoft365) <a href="https://twitter.com/Microsoft365/status/1861160874993463648?ref_src=twsrc%5Etfw">November 25, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Cependant, comme le souligne Tom's Hardware, Microsoft 365 et Microsoft Connected Experiences sont couverts par le contrat de services de Microsoft, qui confère à l'entreprise tous les droits de propriété intellectuelle sur l'ensemble de votre contenu.
« Dans la mesure nécessaire pour vous fournir les Services et à d'autres, pour vous protéger et protéger les Services, et pour améliorer les produits et services Microsoft, vous accordez à Microsoft une licence de propriété intellectuelle mondiale et libre de droits pour utiliser votre Contenu, par exemple, pour faire des copies, conserver, transmettre, reformater, afficher et distribuer via des outils de communication votre Contenu sur les Services », peut-on lire dans le contrat.
La réaction de Microsoft
Microsoft a démenti les affirmations selon lesquelles il alimente en informations privées de grands modèles de langage. Les données de Microsoft 365 peuvent désormais être automatiquement téléchargées et traitées pour offrir des « expériences connectées » qui, selon Microsoft, « vous permettront de créer, de communiquer et de collaborer plus efficacement ».
Le 21 octobre, Microsoft a publié sur son blog des informations détaillées sur l'expérience connectée, qui semblent avoir évoqué le souvenir de Recall, un outil qui prend des clichés de l'écran des utilisateurs toutes les quelques secondes et qui a été décrit comme un « cauchemar en matière de protection de la vie privée ».
Enfouie au plus profond de la section confidentialité des paramètres d'Office 365 se trouve une option d'expérience connectée qui est activée par défaut pour les clients américains (il faut vérifier pour les autres pays). Dans ce menu, on peut également lire en gras : « Votre vie privée est importante ». Si les utilisateurs ne choisissent pas expressément de désactiver cette fonctionnalité, les données des documents sont récoltées et traitées - ce qui a déclenché la panique à l'idée qu'elles pourraient être utilisées pour entraîner Copilot et d'autres modèles d'IA.
Des allégations concernant le scrapping de données par Microsoft ont circulé sur les médias sociaux au cours du week-end
« Cela ne peut pas être vrai », a écrit Florian Roth, responsable de la recherche chez Nextron Systems. « Alors que les entreprises sont occupées à appliquer des politiques d'IA pour protéger les données confidentielles, Microsoft active discrètement cette fonctionnalité par défaut et l'intitule « Votre vie privée est importante ».
« Il est incroyable que Microsoft ait discrètement activé cette fonction alors que tout le monde se concentrait sur sa fonction d'IA 'Recall' », poursuit-il.
Microsoft reste vague sur ce qu'elle fait des données qu'elle recueille, même s'il ne fait aucun doute qu'elle les recueille.
« Les expériences connectées qui analysent votre contenu sont des expériences qui utilisent votre contenu Office pour vous fournir des recommandations de conception, des suggestions d'édition, des informations sur les données et des fonctionnalités similaires », explique Microsoft.
Avec les applications et services Web, les réseaux sociaux, les moteurs de recherche et bien d'autres choses encore, plusieurs acteurs majeurs du secteur de la technologie et de l'IA ont été accusés à juste titre d'avoir récupéré des données utilisateur pour entraîner l'IA. Le PDG de Microsoft AI, Mustafa Suleyman, a récemment déclaré que tout contenu sur le Web « est un usage équitable » pour la formation, la reproduction et plus encore de l'IA. Tout le reste, y compris les données que les gens choisissent activement de ne pas partager ou de cocher une case « ne pas récupérer », est une « zone grise ». De plus, il appartient aux tribunaux de décider quelles données sont interdites.
Revenons à Microsoft Connected Experiences. L'entreprise a déclaré qu'elle n'utilisait pas vos documents Word pour entraîner des modèles d'IA. Néanmoins, si vous...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.