Descripción de la generación aumentada por recuperación (RAG)

¿Qué es la generación aumentada por recuperación (RAG)?

La generación aumentada por recuperación (RAG) es una técnica que mejora la precisión y relevancia de los resultados de los grandes modelos de lenguaje (LLM). Lo hace combinando datos de sistemas externos de recuperación de información con LLM, que a menudo suelen estar desactualizados. 

Por ejemplo, hasta hace poco, el conocimiento de ChatGPT solo abarcaba hasta principios de 2022. Si no estuviera mejorado por otros programas, no podría confiar en sus respuestas a las consultas si pregunta sobre algo muy reciente o nuevo. RAG es uno de esos programas que ayuda a llenar los vacíos de los modelos de IA generativa.   

RAG se usa a menudo para mejorar la relevancia y fiabilidad de diversos resultados de LLM, incluidos sistemas de servicio al cliente, chatbots de soporte, marcos de gestión de proyectos y sistemas de preguntas y respuestas.

Cómo funciona la generación aumentada por recuperación

Además de estar a menudo desactualizados, los LLM están entrenados para rellenar los vacíos cuando los datos no están disponibles. Este proceso, conocido como "alucinación artificial", puede generar información completamente falsa que, a primera vista, puede parecer legítima. 

La generación aumentada por recuperación puede resolver estos problemas impulsando el banco de conocimientos de un LLM con información de sistemas de recuperación externos. Los datos externos agregan contexto actualizado y permiten al LLM desarrollar una comprensión más profunda de los hechos en torno a temas o consultas concretos. RAG permite obtener resultados precisos y relevantes sin tener que volver a entrenar el LLM. Esto puede ser especialmente útil al entrenar un LLM con los datos de su propia empresa. 

Para ilustrar cómo funciona RAG, tome como ejemplo un sistema como ChatGPT que responde a las consultas de los usuarios. En cuanto un usuario introduce una pregunta, el sistema entra en acción. El proceso (simplificado) es el siguiente:

  • Recuperación de información: el sistema de IA envía la consulta de texto a un modelo que la transforma a código máquina, que es numérico y a veces se denomina vector. El vector compara su código con un índice codificado con un índice preexistente, también en formato máquina, que contiene fuentes de información externas, como páginas web, bases de datos y otros bancos de conocimiento existentes. 

  • Preprocesamiento de datos: cuando el sistema encuentra información relacionada sobre el tema de consulta en esas fuentes externas, recupera esos datos, los convierte de nuevo en texto legible para humanos y los envía de vuelta al LLM. 

  • Integración de datos: el LLM procesa los datos recuperados y los combina con su propia base de conocimiento interna para generar una respuesta completa para el usuario. Algunos sistemas también citan las referencias a las fuentes externas de donde obtuvieron parte de la información en la respuesta. 

  • Actualizaciones continuas: una vez que se ha creado un vector y ha entregado los datos externos relevantes al LLM, puede seguir trabajando en segundo plano para crear actualizaciones continuas en el índice. Esto ayuda a garantizar que el LLM siempre tenga acceso a información actualizada.

Para funcionar como se ha descrito anteriormente, el sistema de generación aumentada por recuperación debe someterse primero a una fase de ingestión. Aquí es donde el sistema crea el índice (o biblioteca) de fuentes de información externas. Si bien gran parte de eso se hace de antemano, algunos sistemas de generación aumentada por recuperación también pueden encontrar información y fuentes externas en tiempo real, por ejemplo consultando bases de datos (que se buscan y analizan fácilmente), mediante llamadas API (que permiten al sistema acceder a datos contenidos en diferentes aplicaciones o plataformas) o bien mediante el rastreo de páginas web.

Por qué es importante la generación aumentada por recuperación

La generación aumentada por recuperación es un componente clave para que las respuestas de los LLM sigan siendo relevantes y estén actualizadas. Si bien los LLM son muy buenos en lo que hacen, tienen sus limitaciones, como por ejemplo:

  • Inventar respuestas cuando carece de los datos adecuados. 

  • Ofrecer información demasiado genérica u obsoleta. 

  • No saber exactamente cómo identificar fuentes de información fiables. 

  • Confundirse con la terminología en el proceso de entrenamiento, ya que diferentes sistemas de entrenamiento pueden usar terminología diferente para los mismos conceptos. 

Sin RAG, el conocimiento del LLM se limitaría a un rango de fechas específico o el LLM necesitaría un reentrenamiento constante, lo cual requiere mucho tiempo y es costoso. Con RAG, los LLM son más inteligentes y versátiles y ofrecen mejores resultados generales en todo, desde la creación de contenido basado en IA hasta asistentes virtuales complejos y chatbots inteligentes en el centros de atención al cliente.

El papel de la cloud computing en la generación aumentada por recuperación

La generación aumentada por recuperación no sería posible sin la nube. La nube ofrece capacidades y características esenciales que permiten a los sistemas RAG desplegar todo su potencial, como por ejemplo:

  • Escalabilidad casi infinita y capacidad de almacenamiento masiva: los sistemas de generación aumentada por recuperación dependen de conjuntos de datos muy extensos, como toda la base de conocimientos de una empresa, contenido de miles o millones de páginas web y enormes colecciones de documentos en línea. Los proveedores de nube pública pueden ofrecer tanta capacidad de almacenamiento y computación como necesite en cualquier momento, y escalar el sistema puede ser todavía más rápido y fácil. 

  • Bases de datos distribuidas y capacidades de búsqueda: muchos de los datos externos que recuperan los sistemas RAG son datos no estructurados, lo cual significa que no se pueden organizar fácilmente en hojas de cálculo ordenadas. La nube es un lugar ideal para almacenar y acceder a grandes grupos de datos no estructurados. Los sistemas de búsqueda distribuida también son comunes en la nube. Aceleran y simplifican el acceso y la recuperación de información de grandes conjuntos de datos. 

  • Alto rendimiento y alta disponibilidad: la nube tiene funciones integradas que le permiten operar al máximo rendimiento y reducir la latencia. El alto rendimiento y la baja latencia son esenciales para la generación aumentada por recuperación. La nube también tiene una amplia gama de medidas de redundancia integradas para garantizar que las operaciones continúen incluso si falla un nodo o clúster en particular. 

  • Implementación y gestión de LLM: la nube es una ubicación óptima para la capacitación de LLM. Muchos proveedores ofrecen servicios de IA gestionados que facilitan aún más la implementación y gestión de modelos.

Beneficios de la generación aumentada por recuperación para las empresas

Uno de los mayores beneficios de RAG es que cierra de manera efectiva y eficiente la brecha entre la naturaleza anticuada de los LLM y el estado en constante evolución del lenguaje humano y el conocimiento moderno. Otros beneficios incluyen: 

  • Precisión mejorada de los resultados de LLM: la generación aumentada por recuperación combina la información más reciente con el cuerpo de conocimiento existente de un LLM, lo cual permite respuestas o resultados más actualizados y precisos. Esto también mejora la confianza del usuario en el sistema en general. 

  • Relevancia mejorada: el conocimiento actual adicional de RAG ayuda a los LLM a comprender matices sofisticados en el lenguaje y el significado que podrían no haber sido evidentes sin esta información. 

  • Verificabilidad y transparencia de los hechos: muchos sistemas RAG citan las fuentes de información externa, lo cual permite a los usuarios verificar los datos y hacer correcciones si es necesario. Ayuda a eliminar la naturaleza de "caja negra" de algunos sistemas basados en IA, donde los usuarios no están seguros de cómo se generan las respuestas u otros resultados. 

  • Mayor versatilidad: los sistemas de generación aumentada por recuperación pueden ofrecer a los LLM una mayor versatilidad y permitir casos de uso adicionales. Cuanto más relevantes sean los datos externos que se introduzcan en el LLM, más detallados y personalizados serán los resultados.

Casos de uso para la generación aumentada por recuperación

  • Chatbots: tanto si se trata de un chatbot de gestión del conocimiento empresarial como de soporte orientado al cliente, los sistemas RAG ayudan a garantizar que las conversaciones sean relevantes y detalladas. Además de dar respuestas, estos chatbots también pueden sintetizar información y situaciones y ofrecer recomendaciones prácticas. 

  • Asistentes de redacción: los sistemas de generación aumentada por recuperación pueden ser extremadamente útiles cuando se trata de la creación de contenido basado en IA, como cuando un usuario necesita elaborar un informe utilizando información específica de la empresa o un periodista busca estadísticas relevantes para un artículo. Esto puede ayudar a los usuarios a ahorrar tiempo y crear contenidos de forma más eficiente. 

  • Asistentes de investigación: los LLM mejorados con RAG pueden ser muy útiles durante las fases de investigación, como en tesis de estudiantes de posgrado, casos legales, investigación médica y clínica, entre otros. 

  • Motores de conocimiento: los sistemas avanzados de preguntas y respuestas y las bases de conocimiento pueden ser más precisos, relevantes y oportunos con RAG combinados con LLM. 

  • Generación de ideas personalizada: con un LLM con generación aumentada por recuperación, puede mejorar la lluvia de ideas con recomendaciones basadas en IA, información sobre tendencias futuras, identificación de expertos relevantes y más. Esto también ayuda a mejorar la toma de decisiones y le permite resolver desafíos únicos de una forma más eficiente.

Cómo Nutanix da soporte a la generación aumentada por recuperación

Nutanix comprende los desafíos de las empresas actuales en un contexto en el que el ecosistema de multicloud híbrida se convierte en la norma de TI. Siempre hemos trabajado arduamente para simplificar las operaciones y la gestión de datos y aplicaciones en la nube, y ofrecemos una serie de soluciones, como Nutanix Cloud Platform, que pueden ayudarle a superar los obstáculos comunes que limitan su capacidad para competir.  

A medida que la IA y los LLM se consolidan como pilares fundamentales del éxito empresarial moderno, Nutanix está encontrando formas innovadoras de aprovechar ese poder y hacer que funcione para usted. Una de esas innovaciones es la generación aumentada por recuperación, y actualmente estamos probando los sistemas RAG en nuestra infraestructura interna para mejorar nuestra comprensión de cómo puede hacer que las soluciones basadas en IA de su empresa sean más eficientes y efectivas.