BigScience était une aventure communautaire ainsi qu'un défi de recherche et d'ingénierie. Il a rassemblé plus de 1200 chercheurs du milieu universitaire et de l'industrie (startups, PME, grands groupes) de 38 pays dans le but de développer et de former BLOOM à l'aide d'une infrastructure publique HPC, le superordinateur Jean Zay du GENCI (Grand Equipement National de Calcul Intensif) hébergé et exploité à l'IDRIS (Institut du développement et des ressources en informatique scientifique, CNRS).
Orchestré par Hugging Face, la start-up d'IA open source, 30 groupes de travail se sont mis au travail entre la mi-2021 et la mi-2022, abordant toutes les différentes étapes de la construction d'un modèle linguistique aussi grand (LLM) tels que la gouvernance des données, le choix des données et des sources d'entrée, la modélisation, l'évaluation du modèle, l'ingénierie, y compris l'optimisation et la mise à l'échelle du modèle, la généralisation, l'IA éthique et les cadres juridiques, l'introduction de données multilingue ouvert ROOTS et la licence d'IA ouverte RAIL.
La version finale et la plus grande de BLOOM avec 176 milliards de paramètres sur 70 couches apprises d'une quantité totale de 1,61 téraoctets de texte couvrant 46 langages naturels et 13 langages de programmation. Le groupe de travail d'ingénierie a atteint un débit de pointe avec ce modèle basé sur un transformateur sur la dernière partition nVIDIA A100-80 du superordinateur Jean Zay (offrant plus de 400 GPU A100 sur >3100 de la configuration totale).
From the right to the left : Pierre-François Lavallée (IDRIS), Tom Tabor (HPCWire), Stéphane Requena (GENCI)
Avec le soutien d'experts d'IDRIS, Hugging Face, Microsoft et nVIDIA (en utilisant le framework DeepSpeed-Megatron), le modèle a atteint des performances soutenues de 156 TFlops/GPU (50 % des performances de pointe du FP32/BF16). La formation de BLOOM-176B a pris 3,5 mois, avec 1 082 990 heures de calcul sur 48 nœuds Jean Zay, nécessitant une consommation totale d'énergie de 433 MWh, ce qui représente une empreinte carbone de seulement 25 tonnes d'émissions de CO2.
BLOOM est disponible ouvertement sur un RAIL (Responsible AI Licenses) qui limite les cas d'utilisation potentiellement dangereux que BLOOM pourrait permettre.
Plus d'informations ici :
https://huggingface.co/bigscience/bloom
https://arxiv.org/abs/2211.05100