Comprendre la génération augmentée de récupération (RAG)

Qu'est-ce que la génération augmentée de récupération (RAG) ?

La génération augmentée de récupération (RAG) est une technique qui améliore la précision et la pertinence des résultats des grands modèles de langage (LLM). Pour ce faire, elle combine les données provenant de systèmes externes de recherche d'informations avec des LLM, qui se trouvent souvent être largement obsolètes. 

Par exemple, récemment, l'étendue des connaissances de ChatGPT ne dépassait pas le début de l'année 2022. S'il n'était pas enrichi par d'autres programmes, vous ne pourriez pas vous fier à ses réponses à des questions portant sur des sujets très récents ou nouveaux. La RAG est l'un de ces programmes qui aide à combler les lacunes des modèles d'IA générative.   

La RAG est souvent utilisée pour améliorer la pertinence et la fiabilité des résultats issus des LLM, notamment les systèmes de service client, les chatbots d'assistance, les frameworks de gestion de projet et les systèmes de questions-réponses.

Comment fonctionne la génération augmentée de récupération ?

En plus d'être souvent obsolètes, les LLM sont programmés pour extrapoler lorsque les données ne sont pas disponibles. Cette extrapolation, appelée « hallucination », peut donner lieu à des informations totalement fausses qui peuvent sembler légitimes à première vue. 

La génération augmentée de récupération peut résoudre ces problèmes en enrichissant la base de connaissances d'un LLM avec des informations provenant de systèmes de récupération externes. Les données externes ajoutent un contexte actualisé et permettent au LLM de développer une compréhension plus approfondie des faits liés à des sujets ou à des requêtes particuliers. La RAG permet d'obtenir des résultats précis et pertinents sans avoir à réentraîner le LLM. Cela peut être particulièrement utile lorsque vous entraînez un LLM à partir des données de votre propre entreprise. 

Pour illustrer le fonctionnement de la RAG, prenons l'exemple d'un système tel que ChatGPT qui répond aux requêtes des utilisateurs. Dès qu'un utilisateur saisit une question, le système se met en marche. Le processus (simplifié) est le suivant :

  • Récupération d'informations : le système d'IA transmet la requête textuelle à un modèle qui la convertit en code machine, qui est numérique et parfois appelé vecteur. Le vecteur compare son code à un index préexistant codé en machine, contenant des sources d'informations externes telles que des pages Web, des bases de données et d'autres banques de connaissances existantes. 

  • Prétraitement des données : lorsque le système trouve des informations pertinentes sur le sujet de la requête dans ces sources externes, il récupère ces données, les convertit en texte lisible par l'humain et les renvoie au LLM. 

  • Intégration des données : le LLM analyse les données récupérées, les combine avec sa propre base de connaissances interne et forme une réponse complète à destination de l'utilisateur. Certains systèmes citeront également les sources externes pour certaines des données contenues dans la réponse. 

  • Mises à jour continues : une fois qu'un vecteur a été créé et qu'il a transmis les données externes pertinentes au LLM, il peut continuer à fonctionner en arrière-plan pour créer des mises à jour continues de l'index. Cela permet d'assurer que le LLM dispose toujours d'informations à jour.

Pour fonctionner comme décrit plus haut, le système de génération augmentée de récupération commence par une phase d’ingestion. C'est là que le système va créer l'index, ou bibliothèque, des sources d'informations externes. Bien que cela soit en grande partie effectué en amont, certains systèmes de génération augmentée de récupération peuvent également trouver des informations et des sources externes en temps réel, par exemple en interrogeant des bases de données faciles à consulter et à analyser, en utilisant des appels API qui permettent au système d'accéder à des données contenues dans différentes applications ou plateformes, ou en explorant des pages Web.

Pourquoi la génération augmentée de récupération est-elle importante ?

La génération augmentée de récupération est un élément essentiel pour assurer la pertinence et l'actualité des résultats fournis par les grands modèles de langage (LLM). Bien que les LLM soient très performants dans leur domaine, ils ont leurs limites. Ils peuvent notamment :

  • Inventer des réponses lorsque les données appropriées font défaut. 

  • Fournir des informations trop génériques ou obsolètes. 

  • Ne pas savoir exactement comment identifier des sources d'information fiables. 

  • Être déroutés par la terminologie utilisée dans le processus d'entraînement, car différents systèmes d'entraînement peuvent utiliser des termes différents pour désigner les mêmes concepts. 

Sans la RAG, les connaissances stockées par le LLM seraient limitées à une période donnée ou le LLM aurait besoin d'un entraînement continu, ce qui prend du temps et coûte cher. Avec la RAG, les LLM sont plus intelligents et polyvalents, et offrent de meilleurs résultats globaux dans tous les domaines, de la création de contenu basée sur l'IA aux assistants virtuels complexes, en passant par les chatbots sophistiqués des centres de service client.

Le rôle du cloud computing dans la génération augmentée de récupération

La génération augmentée de récupération ne serait pas possible sans le cloud. Le cloud offre des capacités et des fonctionnalités essentielles qui permettent aux systèmes RAG de donner toute leur mesure. Notamment : 

  • Évolutivité quasi infinie et capacité de stockage massive : les systèmes de génération augmentée de récupération dépendent de très grands ensembles de données, tels que l'ensemble de la base de connaissances d'une entreprise, le contenu de milliers ou de millions de sites Web et d'énormes corpus de documents en ligne. Les fournisseurs de cloud public peuvent fournir autant de capacité de stockage et de calcul que vous le souhaitez à tout moment, et l'extension du système peut être rapide et facile. 

  • Bases de données distribuées et capacités de recherche : une grande partie des données externes récupérées par les systèmes RAG sont des données non structurées, ce qui signifie qu'elles ne peuvent pas être facilement organisées dans des feuilles de calcul claires. Le cloud est un endroit idéal pour stocker et accéder à de grands volumes de données non structurées. Les systèmes de recherche distribués sont également courants dans le cloud. Ils accélèrent et simplifient l'accès et la récupération d'informations à partir de grands ensembles de données. 

  • Haute performance et haute disponibilité : le cloud dispose de fonctionnalités intégrées qui lui permettent de fonctionner à des performances optimales et avec une latence réduite. Un débit élevé et une faible latence sont essentiels pour la génération augmentée de récupération. Le cloud dispose également d'un large éventail de mesures de redondance intégrées afin de garantir la continuité des opérations même en cas de défaillance d'un nœud ou d'un cluster particulier. 

  • Déploiement et gestion des LLM : le cloud est un emplacement optimal pour la formation des LLM. De nombreux fournisseurs proposent des services d'IA managés qui facilitent encore davantage le déploiement et la gestion des modèles.

Avantages de la génération augmentée de récupération pour les entreprises

L'un des principaux avantages de la RAG est qu'elle comble efficacement le fossé entre la nature obsolète des LLM et l'évolution constante du langage humain et des connaissances modernes. Les autres avantages comprennent : 

  • Amélioration de la précision des résultats des LLM : la génération augmentée de récupération combine les dernières informations aux connaissances existantes des LLM, permettant ainsi d'obtenir des réponses ou des résultats plus précis et actualisés. Cela améliore également la confiance des utilisateurs dans l'ensemble du système. 

  • Pertinence améliorée : les connaissances actuelles ajoutées par la RAG aident les LLM à comprendre les nuances sophistiquées du langage et du sens qui auraient pu passer inaperçues sans cela. 

  • Vérifiabilité et transparence des faits : de nombreux systèmes RAG citent des sources d'informations externes, ce qui permet aux utilisateurs de vérifier les données et d'apporter des corrections si nécessaire. Cela contribue à éliminer le caractère « boîte noire » de certains systèmes basés sur l'IA, où les utilisateurs ne savent pas exactement comment les réponses ou autres résultats sont générés. 

  • Polyvalence accrue : les systèmes de génération augmentée de récupération peuvent offrir aux LLM une polyvalence accrue et permettre des cas d'utilisation supplémentaires. Plus les données externes pertinentes fournies aux LLM sont nombreuses, plus les résultats seront détaillés et personnalisés.

Cas d'utilisation pour la génération augmentée de récupération

  • Chatbots : qu'il s'agisse d'un chatbot destiné à la gestion des connaissances de l'entreprise utilisé par les collaborateurs ou d'un chatbot d'assistance à la clientèle, les systèmes RAG contribuent à assurer la pertinence et le détail des conversations. En plus de simplement donner des réponses, ces chatbots peuvent également synthétiser des informations et des situations et proposer des conseils pratiques. 

  • Assistants de rédaction : les systèmes de génération augmentée de récupération peuvent être extrêmement utiles pour la création de contenu basée sur l'IA, par exemple lorsqu'un utilisateur doit créer un rapport à partir d'informations spécifiques à une entreprise ou lorsqu'un journaliste doit trouver des statistiques pertinentes pour un article. Cela peut aider les utilisateurs à gagner du temps et à créer du contenu plus efficacement. 

  • Assistants de recherche : les LLM enrichis par la RAG peuvent être très utiles pendant les phases de recherche, par exemple pour les thèses de doctorants, les affaires juridiques, la recherche médicale et clinique, etc. 

  • Moteurs de connaissances : les systèmes avancés de questions-réponses et les bases de connaissances peuvent être plus précis, pertinents et opportuns grâce à la combinaison de la RAG et des LLM. 

  • Génération d'idées personnalisées : grâce à un LLM avec génération augmentée de récupération, vous pouvez améliorer le brainstorming grâce à des recommandations basées sur l'IA, des informations sur les tendances futures, l'identification d'experts pertinents, et bien plus encore. Cela contribue également à améliorer la prise de décision et vous permet de résoudre plus efficacement les défis uniques.

Comment Nutanix prend en charge la génération augmentée de récupération ?

Nutanix comprend les défis auxquels sont confrontées les entreprises d'aujourd'hui, alors que l'écosystème du multicloud hybride devient la norme informatique. Nous avons toujours travaillé dur pour simplifier les opérations et la gestion des données et des applications dans le cloud, et nous proposons un certain nombre de solutions, telles que Nutanix Cloud Platform, qui peuvent vous aider à surmonter les obstacles courants qui limitent votre capacité à être compétitif.  

Alors que l'IA et les LLM deviennent de plus en plus indispensables à la réussite des entreprises modernes, Nutanix trouve des moyens innovants d'exploiter cette puissance et de la mettre à votre service. L'une de ces innovations est la génération augmentée de récupération (RAG). Nous testons actuellement des systèmes RAG sur notre infrastructure interne afin de mieux comprendre comment ils peuvent rendre les solutions basées sur l'IA de votre entreprise plus efficaces et performantes.