Anastasia Stasenko ne vient pas initialement du monde de l'intelligence artificielle. Philosophe de formation, passée par l'École normale supérieure, c'est par le biais des humanités numériques et de l’analyse de l’opinion qu'elle a plongé dans l’IA. Aujourd'hui, elle dirige un laboratoire d'IA qui entraîne ses propres modèles, avec une vision claire : décentraliser l'IA grâce à l'open source et à la frugalité.
Vous avez un parcours singulier pour une CEO de startup en IA. Comment passe-t-on de la philosophie aux modèles de langage ?
J’ai fait mes études en histoire de la philosophie à l'École normale supérieure, puis une thèse intégrant des éléments de NLP (traitement du langage naturel). C'est là que j'ai rencontré le traitement automatique des grands textes, une branche qui allait définir le développement de l'IA.Ce qui m’intéressait, ce n’était pas uniquement la technologie, mais la possibilité « d'explorer et de saisir ce qui est insaisissable pour l'humain dans les grandes quantités de données ». L’IA était en train de devenir l’instrument qui rendait possible ce que je rêvais de réaliser : comprendre l'esprit humain et les objets littéraires à travers une lecture distante de masses de données.
C’est cette approche centrée sur la donnée qui a donné naissance à votre start up Pleias ?
Avec mon cofondateur Pierre-Carl Langlais, nous venons des humanités numériques. Nous avons une attention particulière pour la donnée : la lire, la curer, aller la chercher là où personne ne va.Nous avons créé Pleias début 2024 avec un objectif un peu rebelle : prouver qu’il est possible d’entraîner un modèle performant uniquement sur des données ouvertes, libres de droits. Contrairement à la majorité des modèles entraînés sur les archives du web (Common Crawl) qui contiennent des contenus sous droits d'auteur, nous avons constitué le « Common Corpus » à partir de domaines publics (BNF, bibliothèques nationales), d'Open Data gouvernementale et des articles scientifiques en open access.
Quel rôle a joué le GENCI dans cette aventure ?
GENCI a été un soutien fondamental. C'est très marquant, pour toute personne du secteur, de lancer pour la première fois un entraînement sur plusieurs nœuds de GPU et de voir la « machinerie » à l'œuvre. C'est un peu comme voir un enfant qui commence à s'exprimer : on voit apparaître des propriétés de langage et de généralisation à partir de d’une donnée que l'on a nous-mêmes désignées.Grâce au cluster Jean Zay et au soutien de GENCI, une startup « bootstrapped » (autofinancée) comme la nôtre a pu entraîner sa première suite de modèles génératifs et rendre ces corpus accessibles à toute la communauté scientifique.
Aujourd'hui, vos recherches se tournent vers la « donnée synthétique » et la frugalité. De quoi s'agit-il ?
Nous cherchons à créer des modèles plus petits, mais plus intelligents, capables de raisonner. Pour cela, la donnée brute du web ne suffit pas. Nous créons des environnements synthétiques. Concrètement, nous avons pris des articles essentiels de Wikipédia et, grâce à des petits modèles, nous avons généré 200 milliards de mots simulant des tâches de raisonnement . Cela nous a permis d’entraîner « Baguettotrone », un petit modèle de 320 millions de paramètres. Le résultat est fascinant : il est performant sur les benchmarks industriels tout en ayant été entraîné sur dix fois moins de données que des modèles comparables comme Gemma 270m de Google . Cela ouvre la voie à des modèles beaucoup moins énergivores et plus accessibles.
En tant que femme dirigeante dans la Tech, quel constat faites-vous sur la place des femmes dans ce secteur ?
La compétence est là. Les femmes scientifiques peuvent tout à fait le faire. Là où ça coince, c’est souvent au moment de passer à l’échelle, sur les fonctions dirigeantes, à cause de l'accès aux capitaux. Il y a très peu de femmes parmi les dirigeants de grandes startups en IA, car le vrai problème reste le manque de ressources économiques pour développer les projets.
Pour conclure cette interview pour JIFSS, quel message souhaiteriez-vous adresser aux jeunes filles qui hésitent à se lancer ?
Il n’y a rien qui peut nous arrêter, à part nous-mêmes. La seule erreur à ne pas faire, c’est de croire qu’on ne peut pas faire les choses ou d'avoir peur de les faire moins bien que les hommes. Il vaut mieux échouer, se relever et recommencer. C'est parfois plus difficile pour les femmes car la honte entre vite en jeu, mais il faut oser.