Twitter rend son algorithme «open-source», comme l’avait promis Elon Musk

Twitter a publié sur GitHub le code qui permet de choisir les tweets qui s’affichent sur votre timeline. Dans son blog, le réseau social explique ce que l’algorithme prend en compte pour déterminer les tweets à afficher dans la timeline «Pour vous» et comment il les classe et les filtre.

Twitter vient de publier – comme l’avait promis son propriétaire Elon Musk – le code source de son algorithme de recommandation, et une découverte très intéressante a déjà été faite dans le code.

https://twitter.com/twittereng/status/1641872259320274944?s=61&t=pTYNWS6RdJhnrc7cc5u5wQ

Selon un billet publié sur son blog sous le titre «Une nouvelle ère de transparence pour Twitter», le réseau social de Musk révèle que le «pipeline de recommandation se compose de trois étapes principales».

Tout d’abord, il rassemble «les meilleurs tweets provenant de différentes sources de recommandation», puis il classe ces tweets à l’aide d’un «modèle d’apprentissage automatique». Enfin, il filtre les tweets des personnes que vous avez bloquées, les tweets que vous avez déjà vus ou les tweets qui ne sont pas sans danger pour le travail, avant de les afficher sur votre «timeline».

Un diagramme montrant le fonctionnement du pipeline de recommandations de Twitter.

L’article explique également chaque étape du processus. Par exemple, il indique que la première étape consiste à examiner environ 1 500 tweets et que l’objectif est de faire en sorte que la timeline «Pour vous» contienne environ 50 % de tweets provenant de personnes que vous suivez (appelées “In-Network”) et 50 % de tweets provenant de comptes «out-of-network» que vous ne suivez pas.

Il est également précisé que le classement vise à «optimiser l’engagement positif (par exemple, les mentions J’aime, les Retweets et les Réponses)» et que l’étape finale vise à s’assurer que vous ne voyez pas trop de tweets d’une même personne.

Le 24 mars 2022, alors qu’il n’était pas encore propriétaire du site, Musk a demandé à ses abonnés si l’algorithme de Twitter devait être ouvert au public, et environ 83 % des réponses ont dit «oui». En février, il avait promis que cela se ferait dans la semaine, avant de repousser l’échéance au 31 mars au début du mois.

Most of the recommendation algorithm will be made open source today. The rest will follow.

Acid test is that independent third parties should be able to determine, with reasonable accuracy, what will probably be shown to users.

No doubt, many embarrassing issues will be… https://t.co/41U4oexIev
— Elon Musk (@elonmusk) March 31, 2023

Musk a tweeté que la publication de vendredi concernait «la majeure partie de l’algorithme de recommandation» et a déclaré que le reste serait publié à l’avenir. Il a également déclaré qu’il espérait «que des tiers indépendants soient en mesure de déterminer, avec une précision raisonnable, ce qui sera probablement montré aux utilisateurs».

Dans un espace consacré à la publication de l’algorithme, il a déclaré que l’objectif était d’en faire «le système le moins exploitable d’internet» et de le rendre aussi robuste que Linux, peut-être le projet open-source le plus célèbre et le plus réussi. «L’objectif global est de maximiser les minutes non regrettées des utilisateurs», a-t-il ajouté.

L’algorithme de Twitter suit spécifiquement l’évolution des tweets d’Elon Musk

Après avoir parcouru le code, plusieurs personnes ont trouvé au moins une partie vraiment intéressante du code qui montre que Twitter suit spécifiquement les métriques pour les utilisateurs répartis en quatre groupes différents :

“power_user”
“républicain
“démocrate
et

“elon”

Twitter suit spécifiquement les performances des tweets de Musk, et cela a été codé directement dans l’algorithme de Twitter.

Le code Twitter contenderai beaucoup de «stupidité»

À la suite de la publication de l’algorithme, un chat audio Twitter Spaces a été mis en place par l’entreprise. Musk et quelques développeurs de Twitter ont répondu aux questions des auditeurs. Quelques personnes ont évoqué cette partie particulière de l’algorithme au cours de la conversation.

«C’est la première fois que je vois cela», a déclaré Musk lorsqu’il a été interrogé sur le code qui suivait les comptes dans ces quatre groupes, dont un uniquement pour ses tweets. «Il y a une tonne de choses stupides et embarrassantes qui sont montrées en rendant le code open source» a-t-il dit.

Musk a préparé son public à être déçu par l’algorithme lorsqu’il le verrait (ce qui suppose, bien sûr, que les gens comprennent réellement le code complexe). Il a déclaré qu’il était «excessivement complexe et pas entièrement compris en interne» et que les gens allaient «découvrir beaucoup de choses stupides», mais il a promis de corriger les problèmes au fur et à mesure qu’ils seraient découverts.

«La transparence du code sera incroyablement embarrassante au début, mais elle devrait conduire à une amélioration rapide de la qualité des recommandations», a-t-il tweeté.

Our “algorithm” is overly complex & not fully understood internally. People will discover many silly things , but we’ll patch issues as soon as they’re found!

We’re developing a simplified approach to serve more compelling tweets, but it’s still a work in progress. That’ll also…
— Elon Musk (@elonmusk) March 17, 2023

Il y a une différence entre la transparence du code, où les utilisateurs pourront voir les mécanismes qui choisissent les tweets pour leur timeline, et le fait que le code soit open source, où la communauté peut effectivement soumettre son propre code pour examen et utiliser l’algorithme dans d’autres projets.

Bien que Musk ait déclaré que l’algorithme serait open source, Twitter devra faire le travail nécessaire pour mériter ce label. Cela implique la mise en place de systèmes de gouvernance permettant de décider quelles demandes de téléchargement doivent être approuvées, quels problèmes soulevés par les utilisateurs méritent une attention particulière et comment empêcher les mauvais acteurs d’essayer de saboter le code à leurs propres fins.

L’entreprise affirme qu’elle y travaille. Le fichier readme de GitHub indique : «Nous invitons la communauté à soumettre des problèmes GitHub et des demandes d’extension pour des suggestions d’amélioration de l’algorithme de recommandation».

Cependant, il est précisé que Twitter est encore en train de construire «des outils pour gérer ces suggestions et synchroniser les changements avec notre référentiel interne». Mais le Twitter de Musk a promis de faire beaucoup de choses (comme sonder les utilisateurs avant de prendre des décisions majeures) qu’il n’a pas tenues, donc la preuve sera dans l’acceptation réelle de tout code de la communauté.

La décision d’accroître la transparence autour de ses recommandations ne se produit pas dans une bulle. Musk a ouvertement critiqué la façon dont l’ancienne direction de Twitter gérait la modération et les recommandations, et a orchestré un barrage d’articles qui, selon lui, exposerait la «suppression de la liberté d’expression» de la plateforme. (La plupart du temps, cela a juste servi à montrer comment fonctionne la modération normale des contenus).

Mais maintenant qu’il est aux commandes, il a dû faire face à de nombreuses réactions négatives, qu’il s’agisse d’utilisateurs agacés par le fait que leurs pages «Pour vous» leur envoient ses tweets à la figure ou de partisans conservateurs de plus en plus préoccupés par le peu d’engagement qu’ils obtiennent. Il a fait valoir que les contenus négatifs et haineux étaient «déboutonnés au maximum» dans les nouveaux algorithmes de recommandation du site, ce que des analystes extérieurs n’ayant pas accès au code ont contesté.

Twitter risque également d’être confronté à la concurrence de la communauté des logiciels libres. Mastodon, un réseau social décentralisé, a gagné du terrain dans certains cercles, et Jack Dorsey, cofondateur de Twitter, soutient un autre projet similaire appelé Bluesky, qui s’appuie sur un protocole open-source.