Slack propose de l’IA, mais est-ce une bonne idée ?

Last updated on 20 mai 2024

Bien évidement pour eux c’est une bonne idée. Je vois mal comment ils auraient pu éluder la vague IA et ne pas mettre un robot LLM (large language model) qui se greffe au contenu de votre Slack. Mais de quoi parles-t-on exactement et est-ce que c’est une bonne idée ?

Mon petit assistant

Voilà en très gros ce que l’assistant se propose de faire ( a ce jour, tout est un peu flou dans le descriptif – et surtout le prix) :

• Le résumé d’une conversation, d’une chaine

• Faire un récapitulatif quotidien de ce qui se passe sur l’espace

• créer des résumés aux thématiques ciblés

Et c’est quand même très tentant. Une grosse partie du temps qu’on passe sur les messagers d’entreprise, c’est de se remettre à jour de ce qui a été dit (Slack estime ce temps à 97 minutes par.. ce n’est pas précisé).. Avec cette fonction, en quelques minutes, on a un résumé sans fioritures de ce qui a été dit. On peut également choisir son sujet, les personnes, ou tout simplement avoir un compte rendu d’une période.

Alors, pourquoi s’en priver gros rabatjoie ?

Mééééh .. Autant rentrer directement dans le cœur du sujet, c’est encore et toujours la même question des données qui vient sur la table. Et la réponse est partielle parce que le fonctionnement est opaque. Mais partons d’abord de la base. Slack n’est pas chiffré en « end-to-end », ce qui laisse imaginer que les messages sur les chaines publique, privées et les messages privés ne sont pas stockés de manière indéchiffrable sur le serveur. C’est difficile à prouver puisque le logiciel n’est pas open source, mais le fait qu’il n’y ait pas ce chiffrage est un gros indice.

Dans les données qui sont stockées, sur des serveurs Amazon, on y trouve :

  • Messages, canevas et extraits
  • Fichiers (par ex., images, documents, etc.) chargés dans le service Slack
  • Index de recherche des données client
  • Messages ou fichiers générés par une application ou par un bot
  • Toutes les données collectées par une application déployée dans l’infrastructure gérée de Slack, ainsi que les magasins de données, secrets de développeur et journaux de ladite application

On peut choisir la localisation des données, et profiter de la sainte protection RGPD européenne en se domiciliant en Europe. MAIS slack précise quand même dans ses conditions que :

Les données des clients signalés ou rapportés peuvent être stockées aux États-Unis afin d’appliquer notre Politique d’utilisation acceptable.

Comment devient-on un client signalé ? Y a-t-il un recours ? Est-ce qu’on est privé de cantine ? Je ne sais pas vraiment. Il y a bien une explication vaguement précise (comprendre très détaillée et à la fois très large). Mais donc, il faut se dire déjà qu’a tout moment, vos données peuvent être rapatriées au USA pour profiter de leur législation sur les données. Et ce n’est franchement pas rassurant.

Tout ce charabia vous semble parfaitement hors sujet ? Je vous remercie déjà de la confiance. En résumé, cela veut dire que vos données sont exploitables en clair, potentiellement avec une législation très laxiste et que l’IA peut tout avaler sans broncher. On parle des messages publics ou privés, les fichiers transmis, les recherches. On note aussi qu’un ensemble de données relatives à l’application est disponible, ces données, on ne saura jamais vraiment sur quoi elles portent, ce qu’elles apportent et ont quoi elles serviront, mais elles existent.

Alors quelles sont les projections qu’on peut faire sur ces usages ?

Privé de désert

Le premier potentiel de ce mix entre IA et données non chiffrées, c’est que le moteur IA ne va pas vraiment faire la part des choses de natures privées ou publiques. Rien ne m’empêche de penser qu’en formulant les bonnes questions, en triturant un peu la bête, je finirais par comprendre que Michel ne pense pas vraiment du bien de moi, et que Catherine est plutôt d’accord. Que les deux ne sont pas franchement motivés à lancer notre projet « Camembert basque ». Ces deux employés, ils ont le droit d’avoir leur avis, mais est ce que j’ai le droit de le savoir ?

Un employé a le droit d’envoyer un message privé via les canaux de communication de l’entreprise, et il a le droit que ces messages soient privés, le reste, et ne soit pris en compte dans la tenue de son travail. Avoir une IA qui peut potentiellement lire « tout » est un risque d’atteindre à ses droits. Et là, je parle d’une activité dans un rapport hiérarchique vertical, que ce passe t-il si un employé commence à poser des questions autour de l’activité des autres employés ?

Alors vous allez me dire, oui, mais si il ne prend pas en compte les messages privés ?

Miroir, mon beau miroir, dis-moi qui..

Le second potentiel négatif de cette fonctionnalité, c’est une forme de suivi très offensive des activités de chacun. La fonction résumée, c’est une vraie machine à pondre des rapports. Est-ce que je peux demander à l’IA si Hervé a été très proactif ces derniers 6 mois ? C’est plutôt simple de demander qui a été plus interrogatif, qui a été le plus présent, qui a donné le plus d’information etc. En quelques prompts, un utilisateur peut être « benchmarké » sur sa sociabilité, son efficacité et son engagement. Vous voyez un peu le truc venir ?

Je peux demander un état des lieux des sujets, des personnes et de leurs activités pour mener une surveillance automatisée qui.. n’est pas très productive.

Mon petit assistant stagiaire

Aux deux premiers points, on rajoute l’incertitude des LLM. Les robots IA deviennent de plus en plus performants, mais tout ça reste encore très incertain. Et cela par nature puisque le résultat des LLM reste des projections de matrices probabilistes, en autres termes, il raconte ce qu’il est le plus probable de raconter.

Trois points donc de discorde :

  • Les LLM’s peuvent mal assimiler ce qui a été écrit (que cela soit de la mauvaise compréhension technique, ou alors des messages mal écrits, utilisant le second degré, parasites et entropiques.
  • La pertinence des contenus peut varier, d’abord du fait du premier point. Mais aussi parce que ceux-là restent encore des projections probabilistes qui veulent avant tout faire un contenu qui semble vrai avant d’être vrai. Les informations données peuvent insidieusement donner de fausses pistes, et ces fausses pistes s’agrègent entre elles. Et je ne parle même pas d
  • Le LLM’s peut tout simplement halluciner sans raison. Bien que ce défaut purement technique a tendance a se réduire avec le temps, il existe toujours. Cela se caractérise par des affabulations complètes, parfois détectable immédiatement par la grossièretée du trait, et parfois beaucoup moins.
Un robot pour gouverner tout le monde

Tout le contenu généré doit être vérifié, interprété et pris avec une distance professionnelle. C’est du travail en plus. Le risque est que le contentement qu’apportent les premiers résultats vous fasse baisser au fur et à mesure votre garde, et que vous finissiez par prendre pour argent comptant tout ce qui est généré.

Fuite des cerveaux

Le quatrième potentiel (et je m’arrêterais là, restez avec moi), c’est que je n’ai aucune idée de comment mes données sont utilisées. Est-ce qu’elles servent à l’entrainement de l’IA de Slack ? Rien ne m’empêche de penser que l’agrégation des données servant au moteur n’alimente pas le moteur lui même. C’est déjà le cas avec une très grande majorité de service IA. Alors que j’ai parlé beaucoup de confidentialité interne, là ou on touche à la confidentialité externe. Si des morceaux de conversation alimentent le robot, Potentiellement, elles peuvent se retrouver dans des résultats de prompts aléatoires, et être un cauchemar de confidentialité déjà démontré.

Mise à jour depuis l’écriture de cet article : les données personnelles des utilisateurs sont bien utilisées pour entrainer l’IA de slack. C’est confirmé dans les CGV que toutes les informations échangées en public ou en privé servent à nourrir le LLM de la messagerie. A lire sur ce très bon article : https://arstechnica.com/tech-policy/2024/05/slack-defends-default-opt-in-for-ai-training-on-chats-amid-user-outrage/

Boire ou conduire

En vrai, je ne suis pas un expert. Mais pour revenir juste sur le point de la confidentialité, je crains qu’il n’y ait pas de solution pour utiliser une IA sur du texte en ligne avec chiffrement. Il faut que le robot puisse lire, comprendre et ingérer l’ensemble des données. Or si on fait du end-to-end, cela veut dire que seul l’utilisateur A peut lire ce que l’utilisateur B lui a envoyé. Le serveur lui n’a aucune idée de qui passe (c’est le cas de l’excellent logiciel Signal), et donc l’ia non plus. Il me semble qu’il y a une difficulté de chiffrement dans le cadre d’un messagerie de groupe, difficulté qui peut être contournée puisque l’excellent logiciel Matrix le fait très bien)

Alors est-ce que Slack n’a pas d’intérêt à le faire ? Est-ce que c’est trop compliqué ? Est-ce qu’ils ont la flemme parce que demain il y a piscine ? Aucun moyen de le savoir, mais vu l’énorme argument commercial que la confidentialité pourrait être pour les entreprises, il ne me semble que ça doit être plus volontaire.

IA for Slack, conversation with a robot
IA for Slack, conversation with a robot

Bien sûr je parle de Slack là, mais c’est exactement le même souci avec WhatsApp et la volonté affichée de Meta et le très utilisé Notion

Restez chez vous

Je ferais un article plus tard sur pourquoi je trouve que les LLMs restent passionnantes, mais partez du principe que je trouve quand même les fonctions de résumé et recherche par IA ssur un messager interne qui pourrait avoir un côté intéressant. Et si vous êtes ici, c’est que vous aussi.

Il y a une solution partielle pour garder ses données au chaud tout en utilisant un peu d’IA. J’ai déjà parlé sur ce blog du clone libre de slack : Mattermost . L’avantage de mattermost, c’est qu’on peut l’héberger soit même. C’est-à-dire que toutes les données qui circulent restent sur un serveur (un ordinateur dans les locaux) et ne s’échapperont pas de l’étagère où elles sont placées physiquement. C’est gratuit, ça s’installe rapidement et c’est tout aussi efficace.

Comme pour Slack, ces données ne sont pas chiffrées. L’administrateur peut y avoir accès plus ou moins facilement. Ce qui vous fera poser la question très philosophique du : est ce que j’ai plus confiance en la personne qui gère mon réseau ou en une entreprise basée aux États-Unis ? Il n’y a que vous qui puissiez y répondre.

Restez chez vous (bis)

En second lieu, si votre serveur (oui c’est toujours un ordinateur) est suffisamment puissant, vous pouvez aussi faire tourner assez simplement un IA qui a les mêmes fonctionnalités, mais en local. Un ordinateur qui peut faire ça se trouve dans une gamme de prix autour de 400-800 euros. Alors, je tempère un peu mon excitation , je parle dans ce cas-là d’une TPE de moins de 10 employés, plus il y aura de personnes, plus la machine devra être conséquente.

Mattermost permet d’utiliser une IA locale pour les mêmes fonctions que Slack. L’IA va fonctionner sur votre ordinateur, n’enverra rien à l’extérieur. Ça sera votre robot à vous et rien qu’a vous. Cerise sur la forêt noire, vous pourrez utiliser n’importe quel moteur IA disponible librement, dont le prodige français Mistral. Toute cette mise en place demande pas mal de doigté et de connaissance en informatique, de l’accompagnement et beaucoup de sueur, mais n’est jamais vraiment inaccessible ( je vous recommande de regarder openllama, llmstudio ou encore openinterpreter).

Mais au fait, pourquoi faire ?

La question qu’elle n’est pas si bête. Que ce soit si vous optez pour l’IA de slack ou un montage fait maison, tout cela prend énormément de place dans l’espace mental. Avoir plus d’information n’est pas toujours indicateur de meilleure gestion. C’est une véritable entropie générative qui doit être soigneusement interprétée,  suivie, comprise et assimilée avec le recul nécessaire. C’est un job à plein temps.

Alors je comprend qu’on ait toujours envie de nouveaux outils, quitte à faire griller un peu plus la planète ,  mais est-ce vraiment productif ? N’est-ce pas une rustine de plus dans une base de mauvaise organisation du temps, des techniques de communication ou même de l’angoisse de la confrontation avec d’autres humains ?

J’utilise l’IA au quotidien, et il n’y a pour l’instant qu’un seul domaine ou cela m’apporte un gain de temps considérable, c’est la transcription de fichiers audio en texte. Pour le reste, le temps d’expérimentation, la phase de recherche de prompt, l’apport réel de pertinence par rapport à l’attente est relativement déceptive. J’ai le sentiment qu’on finit certaines journées dans l’épuisement de l’expérimentation en continu de ces outils jusqu’a l’overdose stochastique.

On verra ce que les prochaines évolutions donneront dans le futur. Mais le chemin que cela donne l’impression de prendre, c’est de toujours gommer les aspérités des ressources humaines derrière des éléments factuels : des rapports et des résumés. Donner l’impression que le travail entre humains peut s’agréger toujours plus dans des datas, des pdf bien agencés autour d’un outils dont la pertinence est discutable et la confidentialité opaque. C’est l’image d’un maitre d’hotel neutre qui ne s’encombre pas des aléas humains.

C’est un mirage qui finit toujours par se venger.

Frederick Écrit par :