Le projet #BigScience est issu des échanges entre Thomas Wolf (Hugging Face), Stephane Requena (GENCI) et Pierre-François Lavallée (IDRIS). Il vise à développer un modèle de langue #NLP comportant moins de biais que ceux développés par exemple par Google ou OpenIA, et utilisé par Microsoft. Ce programme maîtriserait la grammaire, la syntaxe, et disposerait d'une quantité de vocabulaire extrêmement importante. 

Ce projet mobilisant des ressources d'#IntelligenceArtificielle est entraîné sur des milliers de GPU en parallèle sur le #supercalculateur #JeanZay de GENCI, opéré par l'INS2I du CNRS - Centre national de la recherche scientifique. Plus de 5 millions d’heures lui sont dédiées. Il regroupe désormais plus de 500 chercheurs, académiques et industriels, du monde entier, ambitionnant une plus grande diversité technologique et une correction de biais et de #stéréotypes, de #genre notamment.


Cela induit un nouveau jeu de #données qui vise à mieux représenter la variété des utilisateurs (langues, origines, identités, etc.) et à se conformer aux réglementations européennes sur les informations personnelles et la propriété intellectuelle.


#BigScience développe le plus grand modèle linguistique multilingue disponible en open-source.