Estamos en 2025. ¿Puede tener la seguridad de que eso fue escrito por un ser humano y no por una máquina? Esta pregunta habría sonado disparatada hace tan solo tres años, pero hoy nos encontramos en la era de la inteligencia artificial generativa (GenAI) avanzada, en la que herramientas como ChatGPT y AlphaCode pueden redactar al instante largas parrafadas en un inglés casi perfecto, entre otros idiomas, o generar código de software, todo tras recibir apenas unas pocas instrucciones por parte de un ser humano.
Los increíbles avances que esta nueva generación de herramientas GenAI ha logrado han sido posibles gracias a los modelos de lenguaje de gran tamaño o LLM, por sus siglas en inglés. Un LLM, como su nombre indica, es un modelo de lenguaje que se crea al entrenarse con enormes volúmenes de texto escrito. Así, el LLM puede responder a las consultas de forma precisa y satisfactoria, gracias a un modelo de lenguaje funcional y flexible, en la forma de un texto sintácticamente correcto.
Los LLM son importantes porque de ellos surge una sorprendente cantidad de aplicaciones innovadoras para la IA. La capacidad del LLM para comprender y generar, es decir, escribir y "hablar" un lenguaje coherente y preciso, resulta extremadamente atractivo en muchos casos:
Los LLM no reemplazan a las personas; de hecho, los seres humanos son muy necesarios para proporcionar al LLM tanto su experiencia como los objetivos de su misión mediante la ingeniería de prompts (instrucciones de texto que se introducen en programas como ChatGPT). Además, los LLM son propensos a errores todavía, por lo que un humano ha de supervisar (y revisar, cuando sea necesario) cualquier resultado de la máquina.
Sin embargo, aún nos encontramos en los primeros momentos de la implementación de la GenAI y los LLM. Solo hemos vislumbrado el potencial para transformar el mundo que posee esta impresionante tecnología.
Una cosa que hay que tener en cuenta de los LLM es que en realidad no son nada nuevo. Puede parecer que surgieron de la nada, pero los LLM son simplemente la última iteración de las tecnologías de procesamiento del lenguaje natural (NLP) y comprensión del lenguaje natural (NLU) que han llevan existiendo, de una forma u otra, durante décadas. La razón por la que parecen nuevos es que esta nueva generación de herramientas es mucho más poderosa que la anterior; sin embargo, se basa en los mismo principios.
También resulta práctico entender que, desde la perspectiva de la funcionalidad y la infraestructura, los LLM son "modelos de base" que no han sido diseñados para un caso de uso concreto. Por ejemplo, el mismo LLM que ayuda a una doctora a escribir una entrada en la historia clínica acerca de un apéndice inflamado también podría permitir a un escritor de viajes describir la Toscana en invierno, ¡al mismo tiempo!
Y esto, ¿cómo funciona? Decir que es complicado sería quedarse corto, y no pocos expertos en el campo admitirán que gran parte de las capacidades de un LLM siguen siendo un misterio. Sin embargo, por emplear palabras sencillas, un LLM cobra vida al entrenarse con un gigantesco conjunto de datos que tal vez comprenda cientos de miles de millones de documentos como páginas web y libros. El LLM primero "tokeniza" cada palabra, convirtiéndola en una unidad numérica para el proceso de entrenamiento.
A continuación, empleando el deep learning mediante "transformadores", una arquitectura de red neuronal que analiza las relaciones entre las palabras en una secuencia, el LLM adquiere la capacidad de analizar, y después generar, lenguaje. En el fondo, este proceso de deep learning para los LLM se trata de "atención" o de determinar qué palabras merecen mayor énfasis según su relevancia lingüística.
Por ejemplo, al introducir un prompt diciendo: "Quiero pollo", si el LLM ha sido entrenado correctamente, entenderá que esto significa que quiere comer pollo. La palabra "querer" llama la atención del transformador. Si embargo, si el mensaje es "Quiero un pollo", el transformador debe prestar atención a ese "un" y comprender que desea tener un pollo. En términos de IA, el software emplea la inferencia para predecir el siguiente token de la secuencia.
Esto funciona gracias a los años dedicados a construir modelos y léxicos lingüísticos previos que establecieron significados esenciales y contextos verbales. El LLM simplemente lo lleva todo a un nuevo nivel.
Como puede imaginarse, entrenar a un LLM resulta una tarea en la que se involucran enormes cantidades de datos (y de procesamiento). Para hacerse una idea, piense que algunos LLM se entrenan con todos los datos que posee The Common Crawl, un archivo con más de doscientos cincuenta mil millones de páginas web que suma además de tres a cinco mil millones de páginas (aproximadamente trescientos cincuenta terabytes de datos) adicionales cada mes. El conjunto total de datos es de varios petabytes.
El proceso de ingesta y tokenización de semejante cantidad de datos supone en sí mismo una carga de trabajo inmensa. A partir de ahí, los subsiguientes procesos de tokenización y aprendizaje automático, que pueden tardar muchos meses en completarse, consumen grandes cantidades de capacidad de procesamiento, memoria y almacenamiento.
La potencia de procesamiento necesaria para entrenar un LLM es significativa, pero es que, además, existen muchos factores que influyen en su eficiencia. Por ejemplo, la selección y configuración de sus algoritmos de aprendizaje automático puede influir en cuánto tiempo y cuántos ciclos de procesamiento serán necesarios para completar el proceso. Del mismo modo, la preparación del conjunto de datos, para eliminar datos duplicados o de baja calidad, puede afectar a su duración e intensidad. Las diferentes opciones de hardware y paralelismo, por solo nombrar dos de muchos factores, puede cambiar también los requisitos de procesamiento para el entrenamiento de un LLM.
El entrenamiento no es lo único para lo que un LLM precisa procesamiento, memoria y almacenamiento. La ejecución de un LLM implica mantener en funcionamiento una matriz de varios petabytes conectada a varios servidores con memorias enormes cada uno. Cuantas más aplicaciones y usuarios tenga, mayor será la infraestructura que el LLM necesitará.
Una plataforma de cloud computing puede resultar la opción perfecta para la enorme escala y gigantescas demandas de procesamiento de un LLM. Una plataforma de nube pública como Amazon Web Services (AWS) ofrece el tipo de escalabilidad sin fin, almacenamiento, flexibilidad de agrupación en clústeres y potencia de procesamiento que necesitan los LLM.
Los administradores de infraestructura de LLM se encuentran con diversas opciones de hardware y arquitectura. Al igual que muchas cargas de trabajo de IA, los LLM funcionan bien en servidores equipados con unidades de procesamiento gráfico (GPU), que están diseñadas para manejar tareas aceleradas de procesamiento. Otras veces puede ser mejor implementar un LLM en unidades de procesamiento tensorial (TPU) o equivalente. Las TPU están diseñadas específicamente para cargas de trabajo de IA, por lo que pueden resultar más rápidas y eficientes que las GPU para el entrenamiento de LLM.
Otra opción para los LLM podría ser la nube privada. Si bien esto presenta algunos de los inconvenientes de una instancia de LLM on-premise, como la necesidad de adquirir y poner en marcha un equipo complementario completo, la arquitectura en la nube permite una mayor flexibilidad según la carga de trabajo va evolucionando.
La nube presenta una serie de ventajas para las empresas que deseen crear un LLM, relacionadas con el coste, la accesibilidad y la flexibilidad.
La nube reduce las limitaciones de uso de un LLM. Una implementación on-premise se traduce en un importante gasto de capital (CapEx). Después será necesario bastante tiempo para poner en marcha todo ese equipo, un proceso que requiere, demás, especialización y experiencia. La nube evita ambos inconvenientes, ya que permite conceptuar un pago por uso sin que sean necesarios gastos de capital ni de operaciones del centro de datos. La nube también logra que los recursos para los LLM sean más eficientes, ya que resulta sencillo añadir procesamiento o almacenamiento según sea necesario durante el entrenamiento para luego reducir la huella de su infraestructura conforme pase a la fase de ejecución.
Trabajar con una de las principales plataformas en la nube también permite un soporte en diversas regiones. Las necesidades de rendimiento y latencia, como garantizar un tiempo de respuesta de un segundo del LLM, pueden precisar su implementación en más de un lugar. Esta implementación multirregional también puede ser necesaria para cubrir las necesidades de diferentes unidades de negocio, cada una de las cuales podría precisar su propia instancia de LLM. Sin embargo, gracias a la nube también es posible que las partes interesadas colaboren en el LLM en tiempo real, independientemente de su ubicación.
La implementación de un LLM en una plataforma de nube pública ofrece además la ventaja de acceder a los avances más recientes sin necesidad de realizar actualizaciones complicadas o que consuman mucho tiempo. Por ejemplo, si decidiera que su LLM funcionaría mejor mediante TPU en lugar de GPU, la nube le permitiría realizar ese cambio rápidamente y con relativamente poco esfuerzo, mientras que la adquisición e implementación de los servidores TPU on-premise supondría un esfuerzo mayúsculo. Otra cosa que puede hacer en la nube es experimentar con diferentes stacks y configuraciones de agrupación en clústeres, entre otras muchas variables posibles.
Teniendo en cuenta todas estas ventajas, no dejaremos de señalar que la implementación del LLM en la nube también conlleva ciertos inconvenientes. Es recomendable analizar cuidadosamente aspectos como los costos y recursos, así como la seguridad de los datos y el rendimiento.
Entrenar y ejecutar un LLM en la nube evita el CapEx, pero los costes de ejecutar una instancia nube de gran tamaño pueden llegar a acumularse con el tiempo. Sería interesante analizar de manera anticipada y cuidadosa sus necesidades de procesamiento, memoria y almacenamiento. La elección de un stack de tecnología u otro puede marcar una gran diferencia, y algunas plataformas permiten una mayor eficiencia que otras. Y ya que hablamos de esto, también sería inteligente decidir cómo logrará equilibrar las necesidades de rendimiento con sus limitaciones presupuestarias. Es posible que no se requieran los mismos niveles de servicio para todos los casos de uso.
Los LLM pueden potencialmente exponerle al riesgo de un ciberataque, y pudede presentar problemas en el cumplimiento de la normativa. Esto puede ocurrir si el modelo usa datos sensibles o confidenciales en su proceso de entrenamiento. Por ejemplo, si el LLM ha captado registros médicos y se ha entrenado con ellos, estos datos privados de los pacientes podrían terminar saliendo en texto generado. Por este motivo, se recomienda comprobar el conjunto de datos de entrenamiento de LLM y eliminar aquellos que no deberían constar. Como alternativa, se pueden aplicar técnicas de enmascaramiento, como la anonimización, lo que evitaría el acceso del LLM a esta información privada.
La nueva generación de LLM es emocionante, pero no supone más que el siguiente paso en un proceso que comenzó hace años y que continuará evolucionando con el tiempo. Las funcionalidades mejorarán, su entrenamiento será más eficiente. Al mismo tiempo, cuestiones como su consumo de energía también se están convirtiendo en un factor importante al plantearse el uso de LLM.
Una nueva estrategia para el entrenamiento de LLM que está ganando terreno es el aprendizaje federado. En este proceso de aprendizaje automático, diferentes entidades pueden entrenar un modelo sin compartir datos entre sí. Esto ayuda con la privacidad y la seguridad, permitiendo, sin embargo, que cada entidad pueda beneficiarse de las competencias lingüísticas de las demás.
Las soluciones de nube híbrida también están emergiendo para resolver alguno de los problemas de rendimiento y control que conllevan los LLM basados solo en la nube. Según el LLM abarca la infraestructura on-premise y la nube, se posibilitará una mayor flexibilidad. Los usuarios pueden colocar partes del LLM que necesitan un alto rendimiento on-premise mientras disfrutan de las ventajas económicas de la nube para todo lo demás.
Los LLM pueden ser tan grandes y de procesamiento tan intensivo que sus niveles de consumo de energía lleguen a ser preocupantes para las organizaciones que priorizan la sostenibilidad. En la actualidad hay disponibles soluciones sostenibles de TI para cargas de trabajo de IA. Mediante la modernización de la infraestructura de soporte de un LLM y la configuración del sistema en pos de su eficiencia, es posible reducir su consumo de energía e impacto ambiental.
Los LLM han avanzado hasta el punto de poder comprender, expresar y resumir el lenguaje humano con una notable precisión. Se pueden emplear, entre otros muchos casos, desde en el servicio al cliente hasta en el ejercicio de la medicina. Los LLM funcionan entrenándose con enormes conjuntos de datos de texto, utilizando transformadores y redes neuronales para convertirse en expertos en predecir el lenguaje e inferir significados basados en patrones de palabras. Esta carga de trabajo se adapta bien a la nube, dada su necesidad de escalabilidad y flexibilidad; sin embargo, lograr que un LLM funcione de manera eficiente y rentable en la nube implica elegir el stack de nube más adecuado y balancear los recursos existentes con los requisitos de rendimiento.