What is retrieval augmented generation (RAG)?

Retrieval augmented generation (RAG) is a technique that improves the accuracy and relevance of the outputs of large language models (LLMs) . It does this by combining data from external information retrieval systems with LLMs, which can often be significantly out of date.

How retrieval augmented generation works

To illustrate how RAG works, consider a system like ChatGPT that answers user queries. As soon as a user enters a question, the system goes into action. The (simplified) process is as follows: Information retrieval – The AI system transmits the text-based query to a model that changes it to machine code, which is numeric and sometimes called a vector. The vector compares its code to a machine-coded, pre-existing index of external information sources, such as web pages, databases, and other existing knowledge banks. Data pre-processing – When the system finds related information on the query topic in those external sources, it retrieves that data, converts it back to text that humans can read, and transmits it back to the LLM. Data integration – The LLM parses the retrieved data and combines it with its own internal knowledge base and forms a complete answer for the user. Some systems will also cite the external sources for some of the data in the answer. Continual updates – Once a vector has been created and it has delivered the relevant external data to the LLM, it can keep working in the background to create continual updates to the index. This helps ensure that the LLM always has access to up-to-date information.

Why retrieval augmented generation is important

Without RAG, the LLM’s store of knowledge would be limited to a specific date range or the LLM would need constant retraining, which takes time and is expensive. With RAG, LLMs are more intelligent and versatile, and offer better overall outputs in everything from AI-based content creation to complex virtual assistants to savvy chatbots in the customer service center.

The role of cloud computing in retrieval augmented generation

Near-infinite scalability and massive storage capacity – Retrieval augmented generation systems are dependent on very large datasets, such as a company’s entire knowledge base, content from thousands or millions of websites, and huge collections of online documents. Public cloud providers can deliver as much storage and computing capacity as you need at any time, and scaling the system even further can be quick and easy. Distributed databases and search capabilities – A lot of the external data that RAG systems retrieve is unstructured data , meaning it can’t be easily organized into neat spreadsheets. The cloud is an ideal place to store and access large pools of unstructured data. Distributed search systems are also common in the cloud and accelerate and simplify the access and retrieval of information from large datasets. High performance and high availability – The cloud has built-in features that enable it to operate at peak performance and reduced latency. High throughput and low latency are essential to retrieval augmented generation. The cloud also has a wide range of built-in redundancy measures to ensure that operations continue even if a particular node or cluster fails. Deployment and management of LLMs – The cloud is an optimal location for LLM training. Many providers offer managed AI services that make model deployment and management even easier.

Benefits of retrieval augmented generation for enterprises

Enhanced accuracy of LLM outputs – Retrieval augmented generation combines the latest information to an LLM’s existing body of knowledge, enabling the most up-to-date and accurate answers or outputs. This also improves user trust in the overall system. Improved relevance – The added current knowledge from RAG helps LLMs to understand sophisticated nuances in language and meaning that might not have been obvious without it. Fact verifiability and transparency – Many RAG systems cite sources of external information, which enables users to verify the data and make corrections if needed. It helps eliminate the “black box” nature of some AI-based systems, where users aren’t sure how answers or other outputs are being generated. Added versatility – Retrieval augmented generation systems can give LLMs increased versatility and enable additional use cases. The more relevant external data fed into the LLM, the more detailed and personalized outputs will be.

Use cases for retrieval augmented generation

Chatbots – Whether a chatbot for enterprise knowledge management that employees use or a customer-facing support chatbot, RAG systems help ensure that conversations are relevant and detailed. In addition to simply giving answers, these chatbots can also synthesize information and situations and offer up actionable insights. Drafting assistants – Retrieval augmented generation systems can be extremely helpful when it comes to AI-based content creation, such as when a user needs to create a report using company-specific information or a reporter needs to find relevant statistics for an article. This can help users save time and create content more efficiently. Research assistants – LLMs enhanced with RAG can be very helpful during research phases, such as for graduate students’ dissertations, legal cases, medical and clinical research, and more. Knowledge engines – Advanced question-and-answer systems and knowledge bases can be more accurate, relevant, and timely with RAG combined with LLMs. Customized idea generation – Using an LLM with retrieval augmented generation, you can enhance brainstorming with AI-based recommendations, insights into future trends, identification of relevant experts, and more. This also helps improve decision making and enables you to resolve unique challenges more efficiently.

How Nutanix supports retrieval augmented generation

Nutanix understands the challenges of today’s organizations as the hybrid multicloud ecosystem becomes the IT norm. We have always worked hard to simplify operations and management of data and applications in the cloud—and offer a number of solutions, such as Nutanix Cloud Platform , that can help you overcome the common roadblocks that limit your ability to compete.

Che cos'è la RAG e come funziona

Novembre 13, 2024 10:34 pm |

min

Inizia il tuo percorso verso l'AI enterprise

Che cos'è la RAG?

La RAG (Retrieval‑Augmented Generation) è una tecnica che migliora l'accuratezza e la pertinenza degli output dei modelli linguistici di grandi dimensioni (LLM). Per farlo combina gli LLM, che spesso possono essere anche parecchio obsoleti, a dati esterni recuperati da sistemi appositi.

Tanto per fare un esempio, di recente le conoscenze di ChatGPT erano ferme ad appena l'inizio del 2022. Se non ci fossero altri programmi a integrare quelle conoscenze, le risposte di ChatGPT su argomenti nuovi o molto recenti sarebbero inaffidabili. E uno di quei programmi che aiutano a colmare le lacune nei modelli di AI generativa è proprio la RAG.

La RAG viene spesso utilizzata per migliorare la pertinenza e l'affidabilità di diversi output degli LLM – inclusi i sistemi di assistenza clienti, i chatbot di supporto, i framework di gestione dei progetti e i sistemi di domande e risposte.

Prestazioni ed efficienza per carichi di lavoro AI accelerati – e non solo

Products:Nutanix Cloud Manager (NCM), Nutanix Cloud Platform (NCP)
Use Cases:AI ML

7 novembre 2024

Come funziona la RAG

Oltre a essere spesso obsoleti, gli LLM sono poi addestrati per estrapolare informazioni quando non sono disponibili dati: questa estrapolazione, chiamata allucinazione, porta sostanzialmente gli LLM a produrre informazioni che a prima vista potrebbero sembrare corrette, ma che in realtà sono completamente inventate.

La RAG può risolvere questi problemi utilizzando sistemi che recuperano i dati esterni e integrano le informazioni così ottenute nel corpus di conoscenze dell'LLM. I dati esterni sono essenziali, perché aggiornano il contesto e consentono all'LLM di comprendere meglio i fatti relativi a particolari argomenti o query. In questo modo si ottengono output accurati e pertinenti senza dover riaddestrare l'LLM, il che è particolarmente utile quando si addestra un LLM sui dati della propria organizzazione.

Per capire come funziona la RAG, pensiamo a un sistema come ChatGPT che risponde alle domande degli utenti. Non appena un utente inserisce una domanda, il sistema entra in azione. Semplificando molto, il processo è il seguente:

Recupero di informazioni: il sistema di AI trasmette la query testuale a un modello che la codifica in formato numerico (noto anche come ‘vettore’ o codice macchina). Il vettore confronta il codice con un indice preesistente, sempre in codice macchina, che raccoglie fonti di informazioni esterne come pagine web, database e altre knowledge bank.
Elaborazione preliminare dei dati: quando il sistema trova informazioni correlate all'argomento della query nelle fonti esterne recupera quei dati, li riconverte in testo leggibile dagli esseri umani e li trasmette all'LLM.
Integrazione dei dati: l'LLM analizza i dati recuperati e li combina con la propria base di conoscenze interna per formulare una risposta completa per l'utente. Diversi sistemi sono anche in grado di citare le fonti esterne da cui hanno tratto alcuni dei dati utilizzati nella risposta.
Aggiornamenti continui: una volta che un vettore è stato creato e ha inviato all'LLM i dati esterni corretti può continuare a lavorare in background per creare aggiornamenti continui all'indice, contribuendo a garantire che l'LLM abbia sempre accesso a informazioni aggiornate.

Per poter fare tutto questo, però, il sistema RAG deve prima passare attraverso una fase di ingestione, nella quale deve scandagliare le fonti di informazioni esterne per creare un indice o libreria. Questo passaggio viene di solito svolto in una fase preliminare, ma esistono sistemi RAG in grado di trovare informazioni e fonti esterne anche in tempo reale: per esempio interrogando i database, nei quali la ricerca e l'analisi possono essere eseguite con facilità; utilizzando chiamate API, che consentono al sistema di accedere ai dati contenuti in diverse applicazioni o piattaforme; o ricorrendo allo scraping di pagine web.

Perché la RAG è importante

La RAG è un componente fondamentale per mantenere i risultati LLM aggiornati e pertinenti. Gli LLM sono ottimi per il loro scopo, ma hanno comunque dei limiti. Tanto per citarne alcuni:

Quando mancano dati appropriati, inventano le risposte
Offrono informazioni fin troppo generiche oppure datate
Non sanno esattamente come identificare le fonti di informazioni affidabili
Nella fase di addestramento fanno confusione con la terminologia, poiché ogni sistema di addestramento può utilizzare una terminologia diversa per gli stessi concetti

Senza la RAG, gli LLM avrebbero un bagaglio di conoscenze limitato a un intervallo di date specifico, oppure dovrebbero essere riaddestrati continuamente, il che richiede tempo e fa aumentare i costi. Grazie alla RAG, invece, gli LLM diventano più intelligenti e versatili, e complessivamente offrono risultati migliori da tutti i punti di vista – dalla creazione di contenuti basati sull'AI, agli assistenti virtuali complessi, ai chatbot esperti da utilizzare nei centri di assistenza clienti.

È il momento dell'AI: in che modo Nutanix ha implementato un agente LLM

Il ruolo del cloud computing nella RAG

La RAG non sarebbe possibile senza il cloud. Questo perché il cloud offre capacità e caratteristiche essenziali per il funzionamento dei sistemi RAG, come ad esempio:

Scalabilità pressoché infinita ed elevata capacità di storage: i sistemi RAG dipendono da set di dati molto ampi, come per esempio l'intera knowledge base di un'azienda, i contenuti di migliaia o milioni di siti web, o vaste raccolte di documenti online. I provider di cloud pubblico possono fornire tutta la capacità di storage e di calcolo necessaria in qualsiasi momento, e scalare ulteriormente il sistema è semplice e rapido.
Database distribuiti e funzionalità di ricerca: gran parte dei dati esterni che i sistemi RAG recuperano sono dati non strutturati, cioè non possono essere facilmente organizzati e ordinati in un foglio di calcolo. Per archiviare e consultare grandi set di dati non strutturati, il cloud è l'ambiente ideale. I sistemi RAG sono comuni anche nel cloud, e accelerano e semplificano l'accesso e il recupero di informazioni da set di dati di grandi dimensioni.
Alte prestazioni e alta disponibilità: il cloud dispone di funzionalità integrate che gli consentono di operare al massimo delle prestazioni e con una latenza ridotta (un throughput elevato e una bassa latenza sono essenziali per la RAG). In più, il cloud dispone di numerose misure di ridondanza integrate per garantire che le operazioni proseguano anche in caso di guasto di un singolo nodo o cluster.
Implementazione e gestione degli LLM: il cloud è un ambiente ottimale per l'addestramento degli LLM. Molti provider offrono poi servizi di AI gestiti che semplificano ulteriormente l'implementazione e la gestione dei modelli.

È il momento dell'AI: test unitari basati su LLM per repository open source

Vantaggi della RAG per le aziende

Uno dei più grandi vantaggi della RAG è che colma in modo efficace ed efficiente il divario tra un sistema per sua natura datato come un LLM e la continua evoluzione del linguaggio umano e delle conoscenze moderne. Ma esistono anche altri benefici, tra cui:

Maggiore precisione negli output degli LLM: i sistemi RAG combinano le informazioni più recenti con il corpus di conoscenze degli LLM, consentendo risposte o output il più possibile aggiornati e accurati e accrescendo così la fiducia degli utenti nell'intero sistema.
Migliore rilevanza: grazie all'integrazione di conoscenze aggiornate tramite la RAG, gli LLM riescono a cogliere sfumature di linguaggio e significato più complesse altrimenti non così evidenti.
Verificabilità e trasparenza dei dati: molti sistemi RAG citano fonti di informazioni esterne, consentendo agli utenti di verificare le informazioni e, se necessario, apportare correzioni. Questo aiuta a dissipare l'effetto “scatola nera” tipico di certi sistemi basati sull'intelligenza artificiale, in cui l'utente finale non sa con certezza come vengano generate le risposte o gli altri risultati.
Maggiore versatilità: i sistemi RAG rendono gli LLM più versatili e consentono ulteriori use case. Più rilevanti sono i dati esterni inseriti nell'LLM, più dettagliati e personalizzati saranno gli output.

L'impatto ambientale dell'intelligenza artificiale: aspetti positivi e negativi

Use Cases:AI ML, Cloud Native, Hybrid Multicloud, Sustainability & IT

17 settembre 2025

Use case per la RAG

Chatbot: dai chatbot per la gestione delle conoscenze aziendali utilizzati dal personale fino ai chatbot di assistenza rivolti alla clientela, i sistemi RAG contribuiscono a garantire che le conversazioni siano pertinenti e precise. I chatbot con RAG non si limitano a dare risposte: possono anche sintetizzare informazioni e situazioni e offrire insight fruibili.
Assistenti alla scrittura: i sistemi RAG possono essere molto utili nella creazione di contenuti basati sull'AI, ad esempio quando bisogna creare un report utilizzando informazioni specifiche dell'azienda, o quando in ambito giornalistico serve trovare statistiche pertinenti per un articolo. Grazie a queste tecnologie è possibile risparmiare tempo e creare contenuti in modo più efficiente.
Assistenti per la ricerca: gli LLM potenziati da RAG possono rivelarsi molto utili nelle attività di ricerca – ad esempio per la stesura di tesi di laurea, cause legali, ricerche mediche e cliniche, e altro ancora.
Motori di conoscenza: i sistemi avanzati di domande e risposte, così come le basi di conoscenza o knowledge base, possono offrire maggiore accuratezza, rilevanza e attualità se gli LLM sono abbinati ai RAG.
Generazione di idee personalizzate: utilizzando LLM e RAG è possibile potenziare le attività di brainstorming con suggerimenti basati sull'AI, insight sulle tendenze future, individuazione di persone esperte in materia e altro ancora. In questo modo si migliora anche il processo decisionale, ed è possibile risolvere problemi specifici in modo più efficiente.

Come Nutanix supporta la RAG

Il futuro dell'IT è già qui, e si chiama multicloud ibrido. Noi di Nutanix conosciamo le sfide che le aziende devono affrontare, e aiutarle in questo percorso è la nostra missione. Abbiamo sempre lavorato instancabilmente per rendere più semplice la gestione di dati e applicazioni nel cloud, e grazie a questo impegno siamo qui per offrirti un ventaglio di soluzioni – tra cui la Nutanix Cloud Platform – che ti aiutano a superare gli ostacoli comuni che limitano la tua competitività.

L'AI e gli LLM sono un tassello sempre più importante per il successo delle aziende moderne, e Nutanix offre soluzioni innovative per sfruttare la potenza di queste tecnologie e metterla al tuo servizio. Una di queste è la RAG (Retrieval‑Augmented Generation): al momento stiamo testando i sistemi RAG sulla nostra infrastruttura interna, per capire meglio come possono rendere più efficienti e performanti le soluzioni basate sull'AI della tua organizzazione.

Esplora le nostre risorse più interessanti

Report Nutanix sullo stato dell'intelligenza artificiale in ambito enterprise

20 novembre 2023

Data Sheet

Scheda tecnica: Nutanix Enterprise AI

Resource Type:Data Sheet
Use Cases:AI ML, Cloud Native

12 novembre 2024

Solution Brief

Come sfruttare al meglio la potenza della GenAI: una guida per i vertici aziendali

Executive Topics:AI
Key Play:Modern Apps
Nutanix-cxo:Executive Topics
Resource Type:Solution Brief
Use Cases:AI ML

13 febbraio 2025

Progettazione, architettura e best practice

Architettura di riferimento per applicazioni basate su LLM

Nutanix per l'intelligenza artificiale

Soluzioni e prodotti correlati

Nutanix Enterprise AI

Semplifica l'implementazione, l'utilizzo e lo sviluppo di applicazioni e dati AI di livello enterprise, con endpoint sicuri che utilizzano LLM e API per l'intelligenza artificiale generativa.

18 dicembre 2024

Nutanix Kubernetes Platform (NKP)

NKP offre un modo intuitivo per implementare e gestire ambienti cloud‑nativi per i carichi di lavoro containerizzati su Kubernetes.

4 febbraio 2025

Soluzioni AI

Una piattaforma, infinite possibilità. Avvia la tua trasformazione in ottica AI con un'infrastruttura ottimale che offre controllo, privacy e sicurezza per massimizzare le tue chance di successo con l'intelligenza artificiale.

Metadati:Casi d'uso
Nutanix:Soluzioni

10 maggio 2019

Scopri di più sull'intelligenza artificiale

Intelligenza artificiale (AI)

Scopri che cos'è l'intelligenza artificiale, come funziona, quali sono i diversi tipi di AI, gli use case, e i vantaggi dell'integrazione con il cloud computing.

31 marzo 2025

AI edge

Esplora l'AI edge con Nutanix. Scopri che cos'è, in che cosa differisce rispetto agli altri modelli di intelligenza artificiale, quali sono i vantaggi, gli use case e altro ancora.

13 dicembre 2024

AI enterprise

L'AI enterprise sta trasformando interi settori con il cloud computing: scoprine i vantaggi, le criticità, le strategie di implementazione e le tendenze future per allineare le tue iniziative in ambito AI con i tuoi obiettivi aziendali.

27 febbraio 2025

AI generativa (GenAI)

Esplora l'AI generativa basata sul cloud con Nutanix. Scopri che cos'è, come funziona, quali vantaggi offre alle imprese e quali sono i possibili use case.

4 novembre 2024

LLM

Esplora gli LLM (Large Language Models), le loro capacità e la loro sinergia con il cloud computing. Scopri come i team IT e le aziende possono sfruttare gli LLM per ottenere soluzioni scalabili ed efficienti.

26 febbraio 2025