Nous sommes en 2025. Peut-on vraiment dire avec certitude si ces mots ont été écrits par un humain ou par une machine ? Il y a encore trois ans, une telle question aurait paru relever de la science-fiction. Mais aujourd'hui, nous vivons à l'ère de l'intelligence artificielle générative avancée : des outils tels que ChatGPT et AlphaCode sont capables de produire instantanément de longs textes dans un français (ou d'autres langues) d'une qualité quasi parfaite, ou encore du code logiciel, en répondant simplement à quelques questions posées par un être humain.
Les progrès spectaculaires réalisés par cette nouvelle génération d'outils d'IA générative sont rendus possibles par les grands modèles de langage, ou LLM. Un LLM, comme son nom l'indique, est une modélisation du langage obtenue par un apprentissage basé sur de larges volumes de textes écrits. Avec un modèle de langage fonctionnel et flexible, le LLM peut répondre à des prompts avec un texte respectant précisément les exigences de la demande dans un langage syntaxiquement correct.
Les LLM sont essentiels parce qu'ils sont le moteur d'un large éventail d'applications innovantes en matière d'IA. Leur capacité à comprendre et à générer du langage, c'est-à-dire à écrire et à « parler » de manière cohérente et précise, les rend extrêmement intéressants dans de nombreux cas d'utilisation :
Les LLM ne remplacent pas les humains. Au contraire, les humains sont indispensables pour apporter aux LLM leur expertise et les paramètres de la mission par le biais de l'ingénierie de prompt (les instructions textuelles que vous saisissez dans des programmes tels que ChatGPT). Et comme les LLM sont encore sujets aux erreurs, les humains doivent également vérifier (et réviser, le cas échéant) tout résultat fourni par les machines.
Cependant, nous n'en sommes qu'aux prémices des déploiements de l'IA générative et des LLM. Nous n'avons eu qu'un aperçu du potentiel extraordinaire de cette technologie et de sa capacité à transformer le monde.
Ce qu'il faut retenir des LLM, c'est qu'ils ne sont pas véritablement nouveaux. Ils semblent avoir surgi de nulle part, mais ils sont simplement la dernière évolution des technologies de traitement du langage naturel (NLP) et de compréhension du langage naturel (NLU) qui existent, sous une forme ou une autre, depuis des dizaines d'années. La raison pour laquelle ils sont perçus comme nouveaux est que la nouvelle génération d'outils est beaucoup plus puissante que la précédente. Les principes de base restent cependant les mêmes.
Il est également utile de comprendre, du point de vue de la fonctionnalité et de l'infrastructure, que les LLM sont des « modèles de base ». Ils ne sont pas conçus pour un cas d'utilisation spécifique. Par exemple, le même LLM qui aide un médecin à rédiger un dossier sur une inflammation de l'appendice pourrait également permettre à un rédacteur de voyage de décrire la Toscane en hiver.
Comment cela fonctionne-t-il ? Dire que le fonctionnement des LLM est compliqué serait un euphémisme, et de nombreux experts du domaine admettent qu'une grande partie des fonctionnalités d'un LLM reste un mystère (les scientifiques parlent de « boîte noire »). En termes simples, cependant, un LLM prend vie en s'entraînant sur un immense ensemble de données, qui peut comprendre des centaines de milliards de documents tels que des pages web et des livres. Le LLM commence par « tokeniser » chaque mot, en les transformant en unités numériques en vue du processus d'entraînement.
Ensuite, en utilisant le deep learning au moyen de « transformateurs », une architecture réseau neuronale qui analyse les relations entre les mots d'une séquence, le LLM acquiert la capacité d'analyser, puis de générer du langage. Au cœur de ce processus se trouve le mécanisme d'« attention », c'est-à-dire la capacité du modèle à déterminer l'importance linguistique de chaque mot.
Par exemple, si vous donnez comme prompt la phrase « Je veux du poulet » à un LLM, s'il a été correctement entraîné, il comprendra que vous voulez manger du poulet. Le mot « vouloir » retient l'attention du transformateur. En revanche, si le prompt est « Je veux un poulet », le transformateur devrait prêter attention au mot « un » et comprendre que vous voulez acheter un poulet. En termes d'intelligence artificielle, le logiciel utilise l'inférence pour prédire le prochain élément de la séquence.
Tout cela est possible grâce aux années passées à construire des modèles de langage et des lexiques qui ont établi les significations essentielles et les contextes verbaux. Le LLM ne fait que porter ces capacités à un niveau supérieur.
Comme vous pouvez l'imaginer, l'entraînement d'un LLM est une tâche qui demande beaucoup de données et de calculs. Pour avoir un ordre de grandeur, sachez que certains LLM s'entraînent sur l'ensemble de données de Common Crawl, une archive contenant plus de 250 milliards de pages web. Chaque mois, Common Crawl ajoute entre trois et cinq milliards de pages supplémentaires, soit environ 350 téraoctets de données. Au total, l'ensemble de données atteint plusieurs pétaoctets.
Le processus d'ingestion et de tokenisation d'une telle quantité de données constitue en soi une charge de travail colossale. Les processus de tokenisation et de machine learning qui s'ensuivent, et qui peuvent prendre plusieurs mois, consomment de vastes quantités de calcul, de mémoire et de capacité de stockage.
Si la puissance de calcul requise pour entraîner un LLM est importante, de nombreux facteurs conditionnent son efficacité. Par exemple, la sélection et la configuration des algorithmes de machine learning du LLM peuvent avoir un impact sur le temps et le nombre de cycles de calcul nécessaires pour entraîner le LLM. De même, la préparation de l'ensemble de données pour supprimer les doublons ou les données de faible qualité peut affecter la durée et l'intensité du processus d'entraînement. Le choix du matériel et du type de parallélisme, pour ne citer que deux aspects techniques, peut également modifier les exigences de calcul nécessaires à l'entraînement du LLM.
Les besoins d'un LLM en matière de calcul, de mémoire et de stockage ne s'arrêtent pas à l'entraînement. Pour fonctionner, un LLM a besoin d'une infrastructure toujours active, avec plusieurs baies de pétaoctets connectées à plusieurs serveurs, chacun doté d'une grande capacité de mémoire. Plus il y a d'applications et de personnes qui utilisent le LLM, plus l'infrastructure nécessaire à son fonctionnement augmente.
Une plateforme de cloud computing peut constituer la meilleure solution pour répondre aux besoins considérables d'un LLM en termes d'échelle et de traitement. Une plateforme de cloud public comme Amazon Web Services (AWS) offre le type d'évolutivité, de stockage, de flexibilité de clustering et de puissance de calcul sans fin dont les LLM ont besoin.
Les gestionnaires d'infrastructures LLM disposent de plusieurs options de matériel et d'architecture. Comme de nombreuses charges de travail IA, les LLM fonctionnent efficacement sur des serveurs équipés de processeurs graphiques (GPU), qui sont conçus pour gérer des tâches de calcul accéléré. Dans certains cas, il peut être préférable de déployer un LLM sur des unités de traitement tensoriel (TPU) ou leur équivalent. En effet, les TPU sont spécifiquement conçues pour les charges de travail IA, et peuvent donc être plus rapides et plus efficaces que les GPU pour entraîner un LLM.
Un cloud privé est une autre option pour les LLM. Même si cette approche présente certains des inconvénients d'une instance de LLM sur site, par exemple la nécessité d'acquérir et d'installer l'ensemble des équipements, l'architecture du cloud permet une certaine flexibilité à mesure que la charge de travail évolue dans le temps.
Le cloud présente un certain nombre d'avantages pour les organisations qui souhaitent créer des LLM, liés au coût, à l'accessibilité et à la flexibilité.
Le cloud facilite l'accès à l'utilisation d'un LLM. Un déploiement sur site se traduit par des dépenses d'investissement importantes (CapEx). Il faut ensuite prévoir une période relativement longue pour mettre en place tout cet équipement, un processus qui nécessite une expertise spécialisée. Le cloud évite ces deux obstacles et permet une approche « pay-as-you-go », sans CapEx ni coûts opérationnels du datacenter. Le cloud permet également aux LLM d'optimiser les ressources. Il est facile d'ajouter des capacités de calcul ou de stockage en fonction des besoins pendant l'entraînement, puis de réduire l'empreinte de l'infrastructure du LLM lors du passage à la phase d'exploitation.
Utiliser l'une des principales plateformes cloud permet également une prise en charge multi-régionale. Les besoins de performance et de latence, par exemple un temps de réponse garanti d'une seconde du LLM, peuvent nécessiter son déploiement sur plusieurs sites. Ce déploiement multi-régional peut également être nécessaire pour répondre aux besoins de plusieurs business units, chacune d'entre elles pouvant avoir besoin de sa propre instance LLM. Cependant, avec le cloud, il est également possible pour les parties prenantes de collaborer sur le LLM en temps réel, où qu'elles se trouvent.
Le déploiement d'un LLM sur une plateforme de cloud public offre un autre avantage : l'accès aux dernières avancées sans avoir à effectuer une mise à niveau compliquée ou chronophage. Par exemple, si vous déterminez que votre LLM gagnerait à utiliser des TPU plutôt que des GPU, le cloud vous permet d'effectuer ce changement rapidement et avec relativement peu d'efforts. En revanche, l'acquisition et le déploiement de serveurs TPU sur site représenteraient une opération de grande envergure. Dans le cloud, vous pouvez également expérimenter différentes piles et configurations de clustering, parmi de nombreuses variables possibles.
Sans perdre de vue ces avantages, il convient de souligner que la mise en œuvre de LLM dans le cloud présente aussi son lot de difficultés. Il est judicieux de réfléchir aux questions de coûts et de ressources, ainsi qu'à la sécurité des données et aux facteurs de performance.
Entraîner et faire fonctionner un LLM dans le cloud permet d'éviter les dépenses CapEx, mais les coûts de fonctionnement d'une instance cloud importante peuvent croître au fil du temps. Il est donc recommandé d'évaluer soigneusement vos besoins en matière de calcul, de mémoire et de stockage. Le choix de la pile technologique peut faire une grande différence dans ce contexte, certaines plateformes étant plus efficaces que d'autres. Dans le même ordre d'idées, il est judicieux de planifier la manière dont vous allez équilibrer vos besoins de performance et vos contraintes budgétaires. Tous les cas d'utilisation ne requièrent pas nécessairement les mêmes niveaux de service.
Les LLM peuvent exposer au risque de cybermenaces et poser des problèmes de conformité. Cette situation peut se produire si le modèle utilise des données sensibles ou privées dans son processus d'entraînement. Par exemple, si le LLM ingère des dossiers médicaux et les utilise à des fins d'entraînement, des données confidentielles sur les patients pourraient se retrouver dans le texte généré. C'est pourquoi la meilleure pratique consiste à vérifier l'ensemble de données d'entraînement du LLM et à supprimer les données qui ne devraient pas s'y trouver. Une autre solution consiste à masquer les données, par exemple avec l'anonymisation, afin de protéger les informations privées du LLM.
La nouvelle génération de LLM a de quoi séduire, mais elle ne représente que la prochaine étape d'un processus qui a débuté il y a des années et qui continuera d'évoluer au fil du temps. Les fonctionnalités s'amélioreront. L'entraînement deviendra plus efficace. Dans le même temps, des questions telles que la consommation énergétique entrent de plus en plus en ligne de compte dans l'utilisation des LLM.
L'apprentissage fédéré est une nouvelle approche de l'entraînement LLM qui gagne du terrain. Dans ce processus de machine learning, plusieurs entités peuvent entraîner un modèle sans partager de données, contribuant ainsi à la confidentialité et à la sécurité. Cependant, chaque entité peut bénéficier des capacités de langage des autres.
Les solutions de cloud hybride sont une autre option émergente qui résout certains des problèmes de performance et de contrôle liés aux LLM basés sur le cloud. Elles offrent davantage de flexibilité, car le LLM s'étend sur l'infrastructure sur site et sur le cloud. Les utilisateurs peuvent placer les parties du LLM qui demandent de hautes performances sur site tout en profitant des avantages économiques du cloud pour le reste.
En raison de leur taille et de leur complexité de calcul, les LLM peuvent générer une consommation énergétique considérable, ce qui peut préoccuper les organisations soucieuses du développement durable. Des solutions informatiques durables sont désormais disponibles pour les charges de travail IA. En modernisant l'infrastructure de support d'un LLM et en configurant le système pour une meilleure efficacité, il est possible de réduire la consommation énergétique et l'impact environnemental d'un LLM.
Les LLM ont progressé au point de pouvoir comprendre, exprimer et résumer le langage humain avec une précision remarquable. Les cas d'utilisation vont du service client à la pratique de la médecine, entre autres. Les LLM s'entraînent sur de vastes ensembles de données textuelles, en utilisant des transformateurs et des réseaux neuronaux pour devenir experts dans la prédiction du langage et l'inférence de significations basées sur des modèles de mots. La charge de travail est tout à fait adaptée au cloud, étant donné le besoin d'évolutivité et de flexibilité. Cependant, pour qu'un LLM fonctionne de manière efficace et rentable dans le cloud, il faut choisir la pile de cloud la plus adaptée et aligner les ressources sur les besoins de performances.