Comment nous avons trouvé qui était derrière QAnon ?

Grâce à l'intelligence artificielle, la linguistique, la stylométrie et une méthode de travail qui puise ses sources dans l'analyse des chartes et manuscrits médiévaux, Jean-Baptiste Camps et Florian Cafiero sont arrivés à faire la lumière sur l'identité du mystérieux Q – l'auteur des messages à l'origine de l'une des fantasmagories de complots les plus ramifiées du siècle.

→ 28 mars 2022

Deux équipes de scientifiques, française et suisse, semblent être parvenues à identifier l’identité de Q, le principal fondateur du mouvement fantasmagorique et complotiste QAnon. Par le biais de méthodes différentes, elles sont parvenues à des conclusions similaires attribuant la paternité des premiers messages à un développeur de logiciel sud-africain nommé Paul Furber.

L’étude française¹, menée par les chercheurs Florian Cafiero et Jean-Baptiste Camps, mobilise l’Intelligence artificielle et les connaissances de la linguistique et de la stylométrie pour faire la transparence sur l’identité du fondateur de QAnon. Elle illustre le potentiel de ces méthodes algorithmiques mises au service de la lutte contre la désinformation dans un contexte où les moyens technologiques déployés pour ces campagnes de déstabilisation et de diffusion de thèses toxiques sont sans cesse plus sophistiqués.

Vous rappelez que l’une des particularités de QAnon, ce groupe constitué sur internet, réside dans sa grande efficacité à diffuser ses théories conspirationnistes qui ont ensuite un impact important sur nos vies.

Votre enquête et ce cas d’étude semblent loin de l’idée qu’on pourrait se faire d’un chercheur en humanités numérique exploitant la technologie pour travailler à l’élaboration du savoir sur les archives ou la connaissances des grands textes. Pouvez-vous nous présenter votre groupe de recherche ?

Jean-Baptiste Camps

J’ai été formé et j’exerce maintenant à l’École des Chartes qui fête son bicentenaire. Cette école a été créée pour former des experts sur l’analyse de textes et documents anciens, des personnes qui soient capables de lire, comprendre et traiter notamment tous les documents qui résultaient des saisies révolutionnaires, les chartes et manuscrits médiévaux et qui a développé depuis l’époque, une expertise sur les textes et documents.

Toute cette expertise dans les sciences auxiliaires de l’histoire peut aussi bien s’appliquer à des documents médiévaux qu’à des documents très contemporains et peut déboucher sur le type d’expertise forensique telle que celle appliquée dans le cas de QAnon.

Actuellement des groupes de jeunes chercheurs en numérique essayent de conjoindre l’expertise traditionnelle chartiste et des questions comme l’analyse de style. L’IA y a une part substantielle. Nous avons des formations en humanités numériques avec un master dédié depuis 2017 aux sciences des données et sciences humaines.

Florian Cafiero

Nous enseignons effectivement la stylométrie depuis une petite dizaine d’années à l’École des chartes. Je viens du laboratoire GEMASS, le laboratoire de science sociale de la Sorbonne et du CNRS.

Dans mes travaux j’ai eu l’habitude de travailler sur les thèmes de la désinformation et de théorie du complot – comme la controverse autour de la vaccination ou avec la Miviludes autour des dérives sectaires. J’étais donc sensible aux problématiques autour de QAnon.

En ce qui concerne la stylométrie, nous l’avons appliquée à des problématiques extrêmement philologiques et chartistes et puis nous avons évolué vers des problématiques plus larges et peut-être plus contemporaines. Nous avons ainsi commencé prendre la parole publiquement sur la stylométrie pour l’affaire Grégory, puis nous avons été attiré par certains résultats d’une équipe suisse qui travaillait sur QAnon mais qui n’était pas allée jusqu’à l’étude de l’attribution de la paternité des messages de QAnon – les fameux « Q drops ».

On pourrait penser que ces théories, une fois lancées, ont leurs vies propres et ne dépendent plus de leur créateur : la plupart des croyants de QAnon sont tombés dans des bulles cognitives approvisionnées par les algorithmes de suggestions automatiques de Facebook ou Youtube sans même avoir eu à fréquenter les forums sur lesquels ces thèses sont apparues en premier.

Pourquoi est-il cependant décisif de comprendre qui est à l’origine des messages originaux ? Quelles étaient vos motivations pour ces sept mois de travail ?

Le mouvement QAnon dépasse en effet de loin ses créateurs. Beaucoup des théories et contenus qui ont été diffusées, l’ont été en dehors du discours même de son ou ses créateurs(s). Les textes de Q sont des textes extrêmement cryptiques qui n’affirment pas grand chose, qui posent des questions.

L’astuce de Q était de poser des questions au monde et de laisser les internautes « réfléchir ». Cela a donc permis l’émergence d’une sphère qui dépassait largement les auteurs. Dès lors, pourquoi travailler sur les auteurs ?

D’abord pour revenir sur la préconception qu’avaient les nombreux adeptes de ce groupe qui était de dire que ces textes devaient venir d’une source très haut placée, peut-être Donald Trump lui-même ou alors un conseiller à la défense haut placé.

Il y aurait d’ailleurs des observations linguistiques simples sur le fait que l’écriture de Q ne correspond pas à la complexité linguistique de quelqu’un qui se serait retrouvé au sommet des services de renseignements américains et qui serait probablement passé par les meilleures universités du pays.

Après la défaite de Trump, beaucoup des croyants de QAnon ont ressenti de la colère et de la stupéfaction et se sont sentis dupés. Par notre papier, avoir cette démarche-là, c’était aussi participer à l’édification de ce mur de la réalité qui s’opposait à la croyance des adeptes de QAnon depuis des années. C’était de prouver qu’il n’y a aucune chance que ce soit Donald Trump ou Michael Flynn. La réalité doit s’opposer à la croyance qui a été partagée depuis longtemps.

L’astuce de Q était de poser des questions au monde et de laisser les internautes « réfléchir ».
Florian Cafiero

Jean-Baptiste Camps

Il faut aussi relativiser la décrue dans la croyance en QAnon. Ainsi, une étude récente publiée par un think tank américain revient sur le fait que la croyance dans QAnon avait plutôt augmenté en 2021 que diminué².

Florian Cafiero

Il faut également distinguer la croyance en Q de la croyance en QAnon. Penser que les élites sont corrompues et que l’élection a été truquée est différent que de croire que Q est un membre éminent des services secrets. La motivation principale était donc d’expliquer mieux le phénomène. Si les hypothèses concernant les personnes que nous avons testées comme potentiels contributeurs aux messages de QAnon sont valables, les personnes incriminées sont des gens qui ont un destin actuel. Ron Watkins par exemple se présente au Congrès des États-Unis et les Américains ont le droit de savoir qu’il y a une bonne probabilité que cette personne ait été derrière un des mouvements aux dérives les plus flagrantes de ce pays.

Ce projet est aussi un geste citoyen qui mobilise la démarche scientifique de façon rigoureuse au-delà d’un simple projet scientifique.

Dans l’imaginaire populaire, l’IA véhicule l’image d’une technologie complètement automatisée, ou les données sont simples à acquérir et les modèles complexes à construire.

À cet égard, votre travail est emblématique de ce qu’est aujourd’hui le travail de bon nombre de chercheurs utilisant de l’IA. Le modèle est disponible sur étagère mais la donnée est une denrée rare et délicate à exploiter. Pouvez-vous nous décrire cette phase de réflexion qui lie votre expertise de la stylométrie, les contraintes des données brutes que vous pouvez collecter et les contraintes du cas d’usages à savoir l’attribution de la paternité des messages de QAnon ?

En effet l’algorithme que nous avons choisi est relativement établi dans le champ de la stylométrie et personne ne peut contester qu’il s’agit d’un algorithme efficace. Pour favoriser le consensus sur la méthode nous avons donc choisi un modèle très performant qui nous mettait à l’abri de critiques sur la méthode. Le gros du travail, et cela vaut aussi pour nos textes humanistes et nos démarches habituelles, c’est d’aller établir proprement le texte. La plupart des candidats qui ont été cités par le New York Times comme des auteurs probables de Q selon les adorateurs, les journalistes ou les enquêtes, étaient des personnes dont les contenus sur Internet avaient été très largement effacés. Cela inclut Donald Trump d’ailleurs et son entourage qui avaient vu leurs comptes sur les réseaux sociaux supprimés.

Il a donc fallu faire un travail de bibliographie très classique d’humanistes pour remonter dans les archives du web à partir d’une ou deux URL. De proche en proche, nous avons pu ainsi créer un corpus. De plus, ces auteurs se citent énormément entre eux. Par exemple, tout le monde cite Q qui lui-même cite ou imite tout le monde en essayant de se faire passer pour Donald Trump, Michael Flynn ou Steve Bannon.

D’ailleurs, le tri-gramme le plus caractéristique de l’écriture de Donald Trump est « FAK », donc imiter Donald Trump en écrivant « fake » partout fonctionne très bien puisque c’est exactement ce qu’il fait.

Il a fallu faire un travail de bibliographie très classique d’humanistes pour remonter dans les archives du web à partir d’une ou deux URL.
Florian Cafiero

Jean-Baptiste Camps

Nous avons réalisé un travail philologique et computationnel assez classique dans un premiers temps : repérer effectivement les citations et les réemplois de la même manière qu’on va chercher à savoir quand Saint Augustin cite la Bible. Pour ce faire, nous utilisions des algorithmes de détection de réemplois qui eux même découlent d’algorithmes utilisés en biologie d’alignement de séquences. Ici on étudie des séquences textuelles de la même façon que l’on étudie des séquences d’ADN. Cela s’est avéré relativement facile car il s’agit de copié-collé plus facile à repérer. Cependant, les slogans qui infusent comme “make America great again” sont devenus des cris de ralliements qui ne sont donc plus considérés vraiment comme de la citation.

Ce travail était essentiel car si on cherche à attribuer les messages de Q et qu’ils contiennent des citations de Donald Trump, cela va artificiellement les rapprocher de ce dernier.

Le corpus des Q drops, que l’on considère, a son genre propre que personne d’autre ne pratique ; les auteurs-candidats pour l’attribution n’avaient donc pas pratiqué ce même genre de formes brèves, prophétiques. On est forcément dans un cas de comparaison entre différents genres ce qui amène toujours des difficultés. De la même manière qu’un même auteur n’écrit pas des comédies comme des tragédies, il n’écrit potentiellement pas des Q drops de la même manière que des tweets ou des posts Facebook.

Nous avons donc dû construire des corpus pour chaque candidat qui soient également distants des Q drops en mélangeant des textes provenant des réseaux sociaux, et des sources complémentaires, comme des transcriptions d’interviews.

L’analyse des humanités numériques a mis en lumière le rôle décisif des mots outils : articles, prépositions, pronoms etc. Ainsi, selon la formule d’Antoine Compagnon, « la signature d’un écrivain est dans ce que nous ne lisons pas. » Cette formule demeure-t-elle vraie pour le cas du corpus de messages de QAnon ?

En stylométrie, on recherche toujours des choses qui soient les moins conscientes possible et les plus propres à la variation inconsciente de style. C’est ce que recouvre le concept d’idiolecte, le langage tel qu’il est parlé par des individus. Souvent on compte les mots outils car ils dépendent des individus et qu’ils sont fréquents. Dans notre cas, nous avons pris les séquences de trois caractères, les tri-grammes car il a été montré qu’elles étaient extrêmement efficaces en stylométrie. Un dernier défi des données était de se confronter à la pauvreté stylistique du corpus avec des auteurs à l’imagination d’autant plus débridée que leur style est pauvre. Un autre enjeu a été de pouvoir extraire toute l’information qu’on pouvait au niveau du style. Personne n’utilise autant de pronoms interrogatifs dans sa vie courante que les Q drops, la richesse lexicale n’est pas extraordinaire, il y a des mots-outils qui sont oblitérés par le style télégraphique comme “Why now”, “think something ». C’est aussi cela qui rendait le travail sur les sources, sur la détection des réemplois absolument crucial.

En stylométrie, on recherche toujours des choses qui soient les moins conscientes possible et les plus propres à la variation inconsciente de style. C’est ce que recouvre le concept d’idiolecte, le langage tel qu’il est parlé par des individus.
Jean-Baptiste Camps

Vous rappelez que le type de modèle d’IA que vous utilisez, les SVM, est une méthode robuste pour la stylométrie. La tendance dans la discipline du traitement du langage naturel est plutôt à l’inflation de la taille des modèles d’IA qu’elle utilise.

La méthode que vous utilisez a été inventée en 1992 et semble avoir été introduite pour la stylométrie depuis le début des années 2000.

Le rythme d’adoption de la technologie pour la stylométrie est-il soumis à des contraintes propres – volume des jeux de données par exemple – qui rendent peu attractifs des modèles plus complexes ?

Des modèles plus complexes ont déjà été utilisés pour la stylométrie dans des situations très précises mais dans la plupart des cas, les SVMs restent à l’état de l’art car en général on a de bonnes notions sur le type d’information que l’on veut extraire. L’idiolecte se manifeste par l’emploi des mots-outils, des préfixes, des suffixes… Cela permet de savoir quels types de caractères on veut vraiment analyser.

De plus, on cherche souvent à arbitrer entre un nombre restreint d’auteurs donc le volume du jeu de données peut rester modeste. Dans certains cas, ces méthodes permettent aussi de passer à l’échelle et de faire de l’attribution de 3 000 ou 4 000 comptes Twitter mais ces usages demeurent encore peu développés. Pour notre problématique, aspirer tous les comptes Twitter de l’alt-right et les analyser n’aurait pas été l’approche la plus pertinente car nous avions en amont une bonne idée des candidats possibles.

Vous citez des travaux portant sur la difficile question de l’attribution d’un certain nombre d’œuvres de Shakespeare à divers auteurs. L’IA a confirmé les interprétations déjà faites sur les œuvres du théâtre élisabéthain du XVIe siècle qui était par essence un exercice collaboratif.

L’IA appliquée à la stylométrie est-elle cantonnée à des confirmations d’interprétation déjà faites par des spécialistes ? Votre papier va plus loin en arbitrant entre différentes hypothèses de paternité des messages de QAnon.

Pouvez-vous nous expliquer vos résultats et comment les spécialistes de QAnon reçoivent ces conclusions de nature algorithmique ?

Florian Cafiero

La liste de candidats nous a été fournie par des enquêtes journalistiques précédentes. Si ces enquêtes ont éliminé des suspects, alors nous sommes dans l’erreur. Nous insistons dans notre papier sur le fait que les hypothèses que nous étudions sont plausibles mais ne faisons pas d’assertions directes. Parmi les noms très cités que nous avons étudiés, Paul Furber faisait partie des pistes pour différents journalistes.

Les Q drops sont longs de seulement quelques lignes. On ne peut donc pas éliminer la possibilité que quelqu’un d’autre ait écrit quelques Q drops. De manière générale, nos résultats semblent avoir été reçus comme un certain soulagement, comme une confirmation de ce qui avait été dit.

Une des forces de ce résultat tel qu’il est, c’est qu’il a beaucoup de sens : l’algorithme détecte un changement de main au moment où l’on s’attendait à avoir un changement de main. Ainsi, on voit la signature de Ron Watkins monter en flèche à un moment où Paul Furber dit « ceci est le dernier Q drop authentique. »

Paul Furber faisait partie des pistes pour différents journalistes. Les Q drops sont longs de seulement quelques lignes. On ne peut donc pas éliminer la possibilité que quelqu’un d’autre ait écrit quelques Q drops.
Florian Cafiero

Jean-Baptiste Camps

Le reproche que l’on fait aux humanités numériques de confirmer des hypothèses qui existent déjà ou de dire des choses que l’on savait déjà est souvent formulé par des gens qui sont eux-même très traditionnalistes dans leur approche et qui s’étonnent qu’en appliquant des méthodes computationnelles, on obtienne des résultats cohérents avec deux siècles d’études en lecture proche des textes.

Il n’y a rien d’étonnant à ce que deux siècles de chercheurs aient pu avoir juste assez souvent. Bien sûr, on trouve des cas où la stylométrie diverge, en apportant des résultats entièrement nouveaux, en identifiant des auteurs jamais envisagés. À cet égard, le cas de l’hymne néerlandais est emblématique d’une stylométrie disruptive : l’usage de ces méthodes sur le texte de l’hymne a déterminé qu’un auteur mineur était le candidat le plus probable pour l’attribution du texte, rebattant les cartes sur les hypothèses traditionnelles des experts.

Florian Cafiero

La stylométrie apporte aussi une innovation sur les cas qui ne pouvaient pas être traités de manière traditionnelle, par exemple lorsqu’il s’agit de comparer un grand nombre de textes entre eux.

Quelles types de garanties concernant l’explicabilité peuvent être tirées de ces modèles ? L’argument rationnel statistique, celui de la machine, est-il un argument qu’on peut qualifier de rationnel face aux délires fantasmagoriques des partisans de QAnon ?

Jean Baptiste Camps

Nous pouvons donner à voir quelles sont les principales variables contributrices aux fonctions de décision de nos modèles. De manière générale, en stylométrie l’explicabilité est toujours un défi car on cherche à trouver des marqueurs de style peu conscients pour l’auteur comme pour le lecteur. Lorsqu’on demande à un lecteur ce dont il se souvient du style de Proust ou de Céline ou de tel ou tel poète, il va donner des figures de style ou alors des thèmes, du lexique, ce qui n’est pas du tout ce que l’on cherche. Nous recherchons des marqueurs les moins conscients possibles – prépositions, déterminants, conjonctions de coordination… – beaucoup plus difficiles à expliquer. On a beaucoup moins d’intuition sur ce que veut cela signifie d’utiliser plus souvent « le » ou moins souvent « le » que d’utiliser un terme comme « honneur ».

On a beaucoup moins d’intuition sur ce que veut cela signifie d’utiliser plus souvent « le » ou moins souvent « le » que d’utiliser un terme comme « honneur ».
Jean-Baptiste Camps

On sait maintenant que les diverses stratégies d’ingérence dans des processus électoraux ou de déstabilisation des démocraties par la diffusion de thèses conspirationnistes, lorsqu’elles sont dirigées par des autorités étatiques, peuvent être très sophistiquées.

Votre méthode est-elle susceptible à l’avenir d’être trompée ? Un groupe d’auteurs au fait de votre méthode pourrait-il à l’avenir optimiser sa création de fausses informations en utilisant une stratégie adverse pour ne pas être découvert par votre méthode ?

Florian Cafiero

De manière générale, n’importe quelle technique de détection s’oppose à une contre réponse. Cela demeure difficile aujourd’hui techniquement car il n’existe pas beaucoup d’outils pour quelqu’un qui voudrait tromper son monde, d’autant plus que l’imitation est quelque chose que l’on fait généralement mal.

Quand on imite quelqu’un, on imite les traits qui nous paraissent les plus caractéristiques de sa parole.

On va surreprésenter des expressions qui reviennent régulièrement, encore davantage que la personne que l’on cherche à imiter. C’est la dynamique du pastiche. Cela demanderait donc beaucoup de travail mais serait techniquement faisable.

Jean Baptiste Camps

Il y a même un champ qui existe qui est celui de la stylométrie adversariale dans lequel il y a beaucoup de contributions sur les meilleurs algorithmes pour brouiller le signal stylistique avec des substitution aléatoires de mots à partir d’un dictionnaire d’équivalence ou des méthodes plus sophistiquées. Ce champ peut parfois être légitime, notamment quand il s’agit d’empêcher un lanceur d’alerte d’être découvert.

Cela nous amène naturellement à nous interroger sur les nouvelles technologies de la désinformation. En particulier, pensez-vous que les méthodes de stylométrie classique seront toujours robustes face aux prochaines campagnes de désinformation qui pourront être menées à une grande échelle en s’appuyant sur des modèles génératifs de langues comme GPT3.

Ces modèles peuvent être entraînés pour reproduire le style d’un auteur ou inventer un nouveau style tout en créant un message de propagande sur mesure pour un public cible.

La communauté académique est-elle armée pour étudier ces nouveaux phénomènes tant d’un point de vue algorithmique que computationnel³ ?

Florian Cafiero

C’est une guerre de moyens, c’est une guerre à « qui aura l’IA » qui permet de détecter l’IA de la partie adverse. Si le terrain se déporte sur ce type de combats, et ce n’est pas à exclure, il y aura une guerre qui est principalement une guerre d’équipements, à savoir : Qui aura la plus grosse puissance calculatoire.

On peut imaginer qu’on va pouvoir générer des éléments de texte ou d’image encore plus proches du réel dans l’avenir qui vont nous poser des problèmes.

La bataille va peut-être se déporter vers d’autres moyens d’enquête : on va essayer de chercher à identifier la source d’un point de vue de l’émission – i.e : Qui a envoyé le contenu sur internet ? – plutôt que de savoir si le contenu est vrai ou faux. Je ne peux pas parler pour les projets des institutions et des États sur le sujet mais je n’ai pas l’impression que l’on soit surarmé en France sur ce sujet.

Jean-Baptiste Camps

On arrive déjà à détecter via des méthodes d’IA si un passage est coécrit : toutes choses égales par ailleurs, y a-t-il un auteur ou plusieurs derrière ? Détecter s’il y a une obfuscation volontaire de l’auteur revient à essayer de détecter une co-écriture homme-machine.

C’est donc un affrontement de puissance entre ceux qui cherchent à masquer et à démasquer, une dialectique d’opposition qui, si elle s’engage, va amener une compétition des méthodes dans les deux domaines.

C’est un affrontement de puissance entre ceux qui cherchent à masquer et à démasquer, une dialectique d’opposition qui, si elle s’engage, va amener une compétition des méthodes dans les deux domaines.
Jean-Baptiste Camps

Votre projet utilise du code open source et vous produisez aussi vos propres librairies ***open source*. Quelle place la science ouverte occupe-t-elle dans votre approche ?**

C’est déjà une nécessité absolue en tant que chercheur de se conformer à ce que l’on prêche : la science ouverte, la reproductibilité des analyses, l’accumulabilité, la réfutabilité… Cela devrait être un automatisme que de publier et libérer le code que l’on a employé et les données quand on peut le faire. Dans le cadre des théories du complot, on peut espérer que marginalement cela pourra avoir un impact positif.

Dans la réalité, je pense qu’assez peu de gens ont à la fois la motivation, l’ouverture d’esprit et les compétences nécessaires pour s’en saisir. Peut-être que le seul fait que le code soit ouvert peut avoir une portée symbolique auprès du public sans pour autant que ce soit actualisé par le fait d’aller consulter et réviser le code.

Vous devez interpréter les résultats du modèle pour déjouer certains biais, notamment des biais de corrélations entre les thèmes présents dans les données d’entraînement des candidats et les thèmes présents dans corpus des messages de Qanon.

Les résultats bruts du modèle ne peuvent donc être exploités tels quels mais doivent être contextualisés et interprétés par des experts. Vous démontrez donc que la machine ne remplace pas l’expertise humaine mais vient la compléter.

Quelle est votre vision d’une collaboration homme-machine productive en sciences humaines ?

Il y a probablement différents types de collaborations qui peuvent être intéressantes en homme-machine. Il y a ce qu’on voit tout de suite et qu’on a vu en sciences humaines depuis les années 1950, c’est-à-dire la substitution de l’humain par la machine pour des tâches répétitives et fastidieuses, comme l’indexation, le décompte de la fréquence des mots, etc.

Au fils des dernières années, ces systèmes sont devenus de plus en plus intelligents et peuvent produire des expertises de plus en plus fines : Transcription d’écritures que certains étudiants n’arrivent pas à transcrire, résolution d’abréviation ou de noms ambigus, etc. Il y a ensuite un second niveau qui touche à la contribution des modèles à l’interprétation, en interaction avec l’expertise humaine.

On peut citer les divers outils statistiques ou arsenaux des systèmes complexes, simulations, qui sont des champs très prometteurs pour les sciences humaines pour dégager de l’intelligibilité sur des données.

Florian Cafiero

Un point qui me semble important est qu’Il peut y avoir des guerres machine-machine à n’en plus finir sur des sujets d’authenticité des textes mais ce sont des éléments sur lesquels la meilleure arme est aussi l’humain, qui peut prendre le relai et qui quant à lui a une expérience propre du monde tangible – ce que les algorithmes n’ont pas.

Le meilleur moyen de ne pas se laisser prendre au piège de faux textes et de la désinformation, c’est d’exercer son esprit critique et de s’informer au mieux auprès de sources que l’on sait fiables. À court terme, aucun algorithme ne saura nous faire économiser l’acquisition de ce type de connaissances.

Votre papier inclut une note sur les principes de recherche éthique et responsable que vous avez suivis. Vous prenez un certain nombre de précautions concernant le respect de l’anonymat ou le partage des données.

L’IA jusqu’à très récemment était développée par les grands acteurs autour des concepts d’autonomie – le degré de succès est basé sur le degré d’autonomie indépendamment de la supervision humaine – de compétition face aux capacités cognitives humaines et de centralisation de la prise de décision.

Quelles seraient les principaux attributs d’une IA au service des sciences humaines ?

Nous avons longuement débattu sur le cas de QAnon et sur ce qui nous autoriserait à le faire ou pas. Sur notre champ d’étude et pour notre papier sur QAnon, la plus grosse question qui s’est posée à nous était de s’interroger sur la pertinence de commencer un tel projet. On avait des limites sur ce qu’on aurait accepté de donner comme résultats. Si on avait incriminé un parfait anonyme, on n’aurait pas exposé son nom. En l’occurrence, il s’avère que nous sommes dans un cas très différent où Ron Watkins se présente au Congrès des États-Unis donc on est très largement dans le domaine de la figure publique. Cependant utiliser la stylométrie pour exposer les pseudonymes de J.K Rowlings, ou pour enquêter sur Elena Ferrante, c’est pour moi traiter des individus qui ont utilisé un pseudonyme pour les raisons qui les regardent comme des criminels.

Je me défie de ce type d’usage de la stylométrie. Ce champ de l’éthique pour la stylométrie est un champ extrêmement complexe et ouvert pour les prochaines années. Que faire pour contrer ceux qui auraient un usage abusif de ce type de technologies ?

Utiliser la stylométrie pour exposer les pseudonymes de J.K Rowlings, ou pour enquêter sur Elena Ferrante, c’est traiter des individus qui ont utilisé un pseudonyme pour les raisons qui les regardent comme des criminels.
Florian Cafiero

Nous assistons à un basculement de l’histoire de l’Europe et des démocraties libérales où les récits alternatifs, les « faits alternatifs » sont brandis pour appuyer une lutte idéologique, pour asseoir un projet autoritaire ou mener des campagnes de déstabilisation.

En réaction à l’invasion de l’Ukraine, aujourd’hui, les chaînes de télévision et relais médiatiques du régime au pouvoir en Russie sont interdites de diffusion sur le territoire de l’Union et par les grandes plateformes technologiques américaines.

La stylométrie et les méthodes que vous développez peuvent-elles constituer un moyen supplémentaire qui, employé à grande échelle, pourrait permettre au citoyen de savoir qui parle lorsqu’il reçoit une information ?

Oui sûrement. Il existe déjà des outils qui utilisent de l’IA pour détecter des fausses nouvelles et il n’est pas improbable que ce que l’IA détecte soit en fait le style des personnes qui écrivent de manière systématique ces nouvelles. On peut imaginer qu’il y a un nombre limité d’algorithmes et de personnes qui les proposent au monde ; et l’IA est capable de les retrouver.

D’une part, si nous utilisons ces technologies comme outils de cyberguerre, les personnes en face pourront répondre avec des textes générés de manière plus perfectionnée. Rien ne peut nous permettre de faire l’économie d’une critique au sens plus traditionnelle c’est à dire essayer de mettre en contexte l’information que l’on reçoit, la recouper, essayer de croiser les sources. J’espère que la stylométrie participera à créer des outils de plus en plus sophistiqués pour nous empêcher d’être dupés mais elle ne constituera jamais une solution magique. Nous ne serons jamais dispensés de ce travail, que nous avons toujours dû faire dans le cas de QAnon, de critique des sources.

Auteur : Victor Storchan

Sources

Les chercheurs Florian Cafiero et Jean-Baptiste Camps sont également auteurs de Affaires de style : du cas Molière à l’affaire Grégory, la stylométrie mène l’enquête, à paraître le 7 avril aux éditions Le Robert.
PRRI, « The Persistence of QAnon in the Post-Trump Era : An Analysis of Who Believes the Conspiracies », 2022, https://www.prri.org/research/the-persistence-of-qanon-in-the-post-trump-era-an-analysis-of-who-believes-the-conspiracies/.
Ces modèles gigantesques sont très coûteux à entraîner (quelques millions de dollars) et technologiquement complexes à développer.

Comment nous avons trouvé qui était derrière QAnon ?

→ 28 mars 2022

Vous rappelez que l’une des particularités de QAnon, ce groupe constitué sur internet, réside dans sa grande efficacité à diffuser ses théories conspirationnistes qui ont ensuite un impact important sur nos vies.

Votre enquête et ce cas d’étude semblent loin de l’idée qu’on pourrait se faire d’un chercheur en humanités numérique exploitant la technologie pour travailler à l’élaboration du savoir sur les archives ou la connaissances des grands textes. Pouvez-vous nous présenter votre groupe de recherche ?

Jean-Baptiste Camps

Florian Cafiero

On pourrait penser que ces théories, une fois lancées, ont leurs vies propres et ne dépendent plus de leur créateur : la plupart des croyants de QAnon sont tombés dans des bulles cognitives approvisionnées par les algorithmes de suggestions automatiques de Facebook ou Youtube sans même avoir eu à fréquenter les forums sur lesquels ces thèses sont apparues en premier.

Pourquoi est-il cependant décisif de comprendre qui est à l’origine des messages originaux ? Quelles étaient vos motivations pour ces sept mois de travail ?

L’astuce de Q était de poser des questions au monde et de laisser les internautes « réfléchir ».
Florian Cafiero

Jean-Baptiste Camps

Florian Cafiero

Ce projet est aussi un geste citoyen qui mobilise la démarche scientifique de façon rigoureuse au-delà d’un simple projet scientifique.

Dans l’imaginaire populaire, l’IA véhicule l’image d’une technologie complètement automatisée, ou les données sont simples à acquérir et les modèles complexes à construire.

À cet égard, votre travail est emblématique de ce qu’est aujourd’hui le travail de bon nombre de chercheurs utilisant de l’IA. Le modèle est disponible sur étagère mais la donnée est une denrée rare et délicate à exploiter. Pouvez-vous nous décrire cette phase de réflexion qui lie votre expertise de la stylométrie, les contraintes des données brutes que vous pouvez collecter et les contraintes du cas d’usages à savoir l’attribution de la paternité des messages de QAnon ?

Il a fallu faire un travail de bibliographie très classique d’humanistes pour remonter dans les archives du web à partir d’une ou deux URL.
Florian Cafiero

Jean-Baptiste Camps

Ce travail était essentiel car si on cherche à attribuer les messages de Q et qu’ils contiennent des citations de Donald Trump, cela va artificiellement les rapprocher de ce dernier.

L’analyse des humanités numériques a mis en lumière le rôle décisif des mots outils : articles, prépositions, pronoms etc. Ainsi, selon la formule d’Antoine Compagnon, « la signature d’un écrivain est dans ce que nous ne lisons pas. » Cette formule demeure-t-elle vraie pour le cas du corpus de messages de QAnon ?

En stylométrie, on recherche toujours des choses qui soient les moins conscientes possible et les plus propres à la variation inconsciente de style. C’est ce que recouvre le concept d’idiolecte, le langage tel qu’il est parlé par des individus.
Jean-Baptiste Camps

Vous rappelez que le type de modèle d’IA que vous utilisez, les SVM, est une méthode robuste pour la stylométrie. La tendance dans la discipline du traitement du langage naturel est plutôt à l’inflation de la taille des modèles d’IA qu’elle utilise.

La méthode que vous utilisez a été inventée en 1992 et semble avoir été introduite pour la stylométrie depuis le début des années 2000.

Le rythme d’adoption de la technologie pour la stylométrie est-il soumis à des contraintes propres – volume des jeux de données par exemple – qui rendent peu attractifs des modèles plus complexes ?

Vous citez des travaux portant sur la difficile question de l’attribution d’un certain nombre d’œuvres de Shakespeare à divers auteurs. L’IA a confirmé les interprétations déjà faites sur les œuvres du théâtre élisabéthain du XVIe siècle qui était par essence un exercice collaboratif.

L’IA appliquée à la stylométrie est-elle cantonnée à des confirmations d’interprétation déjà faites par des spécialistes ? Votre papier va plus loin en arbitrant entre différentes hypothèses de paternité des messages de QAnon.

Pouvez-vous nous expliquer vos résultats et comment les spécialistes de QAnon reçoivent ces conclusions de nature algorithmique ?

Florian Cafiero

Paul Furber faisait partie des pistes pour différents journalistes. Les Q drops sont longs de seulement quelques lignes. On ne peut donc pas éliminer la possibilité que quelqu’un d’autre ait écrit quelques Q drops.
Florian Cafiero

Jean-Baptiste Camps

Florian Cafiero

Quelles types de garanties concernant l’explicabilité peuvent être tirées de ces modèles ? L’argument rationnel statistique, celui de la machine, est-il un argument qu’on peut qualifier de rationnel face aux délires fantasmagoriques des partisans de QAnon ?

Jean Baptiste Camps

On a beaucoup moins d’intuition sur ce que veut cela signifie d’utiliser plus souvent « le » ou moins souvent « le » que d’utiliser un terme comme « honneur ».
Jean-Baptiste Camps

On sait maintenant que les diverses stratégies d’ingérence dans des processus électoraux ou de déstabilisation des démocraties par la diffusion de thèses conspirationnistes, lorsqu’elles sont dirigées par des autorités étatiques, peuvent être très sophistiquées.

Votre méthode est-elle susceptible à l’avenir d’être trompée ? Un groupe d’auteurs au fait de votre méthode pourrait-il à l’avenir optimiser sa création de fausses informations en utilisant une stratégie adverse pour ne pas être découvert par votre méthode ?

Florian Cafiero

Quand on imite quelqu’un, on imite les traits qui nous paraissent les plus caractéristiques de sa parole.

Jean Baptiste Camps

Cela nous amène naturellement à nous interroger sur les nouvelles technologies de la désinformation. En particulier, pensez-vous que les méthodes de stylométrie classique seront toujours robustes face aux prochaines campagnes de désinformation qui pourront être menées à une grande échelle en s’appuyant sur des modèles génératifs de langues comme GPT3.

Ces modèles peuvent être entraînés pour reproduire le style d’un auteur ou inventer un nouveau style tout en créant un message de propagande sur mesure pour un public cible.

La communauté académique est-elle armée pour étudier ces nouveaux phénomènes tant d’un point de vue algorithmique que computationnel³ ?

Florian Cafiero

On peut imaginer qu’on va pouvoir générer des éléments de texte ou d’image encore plus proches du réel dans l’avenir qui vont nous poser des problèmes.

Jean-Baptiste Camps

C’est un affrontement de puissance entre ceux qui cherchent à masquer et à démasquer, une dialectique d’opposition qui, si elle s’engage, va amener une compétition des méthodes dans les deux domaines.
Jean-Baptiste Camps

Votre projet utilise du code open source et vous produisez aussi vos propres librairies ***open source*. Quelle place la science ouverte occupe-t-elle dans votre approche ?**

Vous devez interpréter les résultats du modèle pour déjouer certains biais, notamment des biais de corrélations entre les thèmes présents dans les données d’entraînement des candidats et les thèmes présents dans corpus des messages de Qanon.

Les résultats bruts du modèle ne peuvent donc être exploités tels quels mais doivent être contextualisés et interprétés par des experts. Vous démontrez donc que la machine ne remplace pas l’expertise humaine mais vient la compléter.

Quelle est votre vision d’une collaboration homme-machine productive en sciences humaines ?

Florian Cafiero

Votre papier inclut une note sur les principes de recherche éthique et responsable que vous avez suivis. Vous prenez un certain nombre de précautions concernant le respect de l’anonymat ou le partage des données.

L’IA jusqu’à très récemment était développée par les grands acteurs autour des concepts d’autonomie – le degré de succès est basé sur le degré d’autonomie indépendamment de la supervision humaine – de compétition face aux capacités cognitives humaines et de centralisation de la prise de décision.

Quelles seraient les principaux attributs d’une IA au service des sciences humaines ?

Utiliser la stylométrie pour exposer les pseudonymes de J.K Rowlings, ou pour enquêter sur Elena Ferrante, c’est traiter des individus qui ont utilisé un pseudonyme pour les raisons qui les regardent comme des criminels.
Florian Cafiero

Nous assistons à un basculement de l’histoire de l’Europe et des démocraties libérales où les récits alternatifs, les « faits alternatifs » sont brandis pour appuyer une lutte idéologique, pour asseoir un projet autoritaire ou mener des campagnes de déstabilisation.

En réaction à l’invasion de l’Ukraine, aujourd’hui, les chaînes de télévision et relais médiatiques du régime au pouvoir en Russie sont interdites de diffusion sur le territoire de l’Union et par les grandes plateformes technologiques américaines.

La stylométrie et les méthodes que vous développez peuvent-elles constituer un moyen supplémentaire qui, employé à grande échelle, pourrait permettre au citoyen de savoir qui parle lorsqu’il reçoit une information ?

Auteur : Victor Storchan

Sources

Les chercheurs Florian Cafiero et Jean-Baptiste Camps sont également auteurs de Affaires de style : du cas Molière à l’affaire Grégory, la stylométrie mène l’enquête, à paraître le 7 avril aux éditions Le Robert.
PRRI, « The Persistence of QAnon in the Post-Trump Era : An Analysis of Who Believes the Conspiracies », 2022, https://www.prri.org/research/the-persistence-of-qanon-in-the-post-trump-era-an-analysis-of-who-believes-the-conspiracies/.
Ces modèles gigantesques sont très coûteux à entraîner (quelques millions de dollars) et technologiquement complexes à développer.