Was sind Large Language Models?


Was sind Large Language Models?

Wir schreiben das Jahr 2025. Können Sie sicher sein, dass diese Worte von einem Menschen und nicht von einer Maschine geschrieben wurden? Diese Frage wäre noch vor drei Jahren weit hergeholt gewesen. Doch wir leben nun in einer Ära der fortgeschrittenen generativen künstlichen Intelligenz (GenAI), in der Tools wie ChatGPT und AlphaCode mit wenigen einfachen Eingaben eines Menschen sofort Software-Code oder lange Texte in nahezu perfektem Deutsch oder anderen Sprachen schreiben können.  

Die spektakulären Fortschritte dieser neuen Generation von GenAI-Tools werden durch Large Language Models (LLMs) ermöglicht. Ein LLM ist, wie der Name vermuten lässt, ein Sprachmodell, das durch das Training mit enormen Mengen an geschriebenem Text entsteht. Mit einem funktionierenden und flexiblen Sprachmodell kann das LLM auf Eingaben mit Text reagieren, der die Anforderungen der Eingabe mit syntaktisch korrekter Sprache genau erfüllt.

Warum sind LLMs wichtig?

LLMs sind wichtig, weil sie die Quelle einer beeindruckenden Vielzahl innovativer KI-Anwendungen sind.  Die Fähigkeit des LLM, eine kohärente und präzise Sprache zu verstehen und zu generieren, d. h. zu schreiben und zu „sprechen“, ist für viele Use Cases von großem Interesse:

  • Kundenservice – Kunden können mit LLM-basierten Chatbots interagieren, die Kundenprobleme verstehen und sinnvoll darauf reagieren. Diese Funktionalität reduziert den Bedarf an menschlichem Eingreifen und kann zu einem schnelleren, genaueren und kostengünstigeren Kundensupport führen.
  • Erstellung von Inhalten – GenAI-Software auf Basis von LLMs kann nun bei der Erstellung einer Vielzahl von schriftlichen Inhalten helfen. Dazu gehören Social-Media-Beiträge, E-Mails, Zusammenfassungen von Berichten, Buchkapitel und Blogbeiträge. Dadurch können Einzelpersonen und Marketingteams die Erstellung von Inhalten mit weniger Ressourcen schneller skalieren.
  • Datenanalyse – Dank seiner Sprachverarbeitungsfähigkeiten kann ein LLM synergetisch mit Analysewerkzeugen zusammenarbeiten, um komplexe Datensätze auszuwerten – auch unstrukturierte Daten –, etwa durch das Sichten Tausender PDFs und das Ableiten analytischer Schlüsse aus deren Inhalt.
  • Gesundheitswesen – Ärzte und Pflegekräfte verbringen heute viel Zeit mit der Erstellung von Krankenakten, was das wiederholte Schreiben ähnlicher Texte beinhaltet, z. B. „Die Temperatur des Patienten ist um 1 Grad gestiegen, daher wurde ihm Paracetamol verabreicht.“ Eine LLM-basierte Anwendung für die Erstellung von Krankenakten könnte diesen Satz automatisch generieren, was dem Arzt Zeit spart und eine effizientere Versorgung ermöglicht.

LLMs ersetzen keine Menschen – vielmehr sind Menschen dringend erforderlich, um die LLM mit ihrem Fachwissen und den Aufgabenparametern durch Prompt Engineering (die Textanweisungen, die Sie in Programme wie ChatGPT eingeben) zu versorgen. Zudem sind LLMs noch fehleranfällig, sodass Menschen alle von Maschinen gelieferten Ergebnisse überprüfen (und gegebenenfalls überarbeiten) müssen.

Wir stehen allerdings noch ganz am Anfang beim Einsatz von GenAI und LLMs. Bisher haben wir nur einen ersten Eindruck davon bekommen, welches transformative Potenzial diese bemerkenswerte Technologie in sich trägt.

Wie funktionieren Large Language Models?

Besonders interessant ist, dass LLMs eigentlich nichts Neues sind. Auch wenn es scheint, als wären sie plötzlich aus dem Nichts aufgetaucht: LLMs sind lediglich die neueste Weiterentwicklung von Technologien zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) und zum Verstehen natürlicher Sprache (Natural Language Understanding, NLU), die es in unterschiedlichen Formen seit Jahrzehnten gibt. Neu erscheinen sie vor allem deshalb, weil diese aktuelle Generation von Werkzeugen deutlich leistungsfähiger ist als alles zuvor. Die Grundlagen sind jedoch dieselben.

Aus Sicht der Funktionalität und Infrastruktur ist es auch hilfreich zu verstehen, dass LLMs „Grundlagenmodelle“ sind. Sie wurden nicht für einen bestimmten Use Case entwickelt. So kann das LLM, das einem Arzt hilft, einen Eintrag über eine Blinddarmentzündung in eine Krankenakte zu schreiben, gleichzeitig einen Reisejournalisten dabei unterstützen, die Toskana im Winter zu beschreiben.

Wie funktioniert das? Zu sagen, es sei komplex, wäre eine Untertreibung – und nicht wenige Fachleute geben zu, dass vieles von dem, was ein LLM kann, weiterhin eine „Black Box“ bleibt. Doch einfach ausgedrückt wird ein LLM durch das Training mit einem riesigen Datensatz zum Leben erweckt, der möglicherweise Hunderte von Milliarden von Dokumenten wie Webseiten und Bücher umfasst. Das LLM „tokenisiert“ zunächst jedes Wort und wandelt es in numerische Einheiten für den Trainingsprozess um.

Anschließend nutzt das LLM Deep Learning mithilfe sogenannter Transformer – einer neuronalen Netzwerkarchitektur, die die Beziehungen zwischen Wörtern in einer Sequenz analysiert –, um Sprache zu verstehen und dann selbst zu erzeugen. Im Kern dreht sich der Deep-Learning-Prozess bei LLMs um „Attention“ – also darum, die sprachlich relevante Gewichtung verschiedener Wörter zu erkennen.

Wenn Sie beispielsweise ein LLM mit „Ich möchte Hähnchen“ ansprechen, versteht es bei korrekter Schulung, dass Sie Hähnchen essen möchten. Das Wort „möchte“ erregt die Aufmerksamkeit des Transformers. Wenn die Eingabe hingegen „Ich möchte ein Hähnchen“ lautet, sollte der Transformer auf das „ein“ achten und verstehen, dass Sie ein Hähnchen besitzen möchten. Im Kontext der KI nutzt die Software Inferenz, um das nächste Token in der Sequenz vorherzusagen.

Dies funktioniert, weil jahrelang frühere Sprachmodelle und Lexika erstellt wurden, die wesentliche Bedeutungen und verbale Kontexte festgelegt haben. Das LLM hebt all dies einfach auf eine neue Leistungsstufe.

Wie Sie sich vorstellen können, ist das Training eines LLM eine daten- und rechenintensive Aufgabe. Um eine Idee von der Größenordnung zu bekommen, bedenken Sie, dass einige LLMs auf dem Datensatz „The Common Crawl“ trainiert werden, einem Archiv mit über 250 Milliarden Webseiten. The Common Crawl fügt jeden Monat weitere drei bis fünf Milliarden Seiten hinzu, was etwa 350 Terabyte an Daten entspricht. Insgesamt umfasst der Datensatz mehrere Petabyte.

Der Prozess der Erfassung und Tokenisierung dieser Datenmenge ist bereits eine gewaltige Leistung. Die anschließenden Tokenisierungs- und Machine-Learning-Prozesse, die viele Monate dauern können, verbrauchen enorme Mengen Rechen-, Arbeitsspeicher- und Storage-Kapazitäten.

Die für das Training eines LLM erforderliche Rechenleistung ist zwar erheblich, doch viele Faktoren beeinflussen dessen Effizienz. So können beispielsweise die Auswahl und Konfiguration der Machine-Learning-Algorithmen Auswirkungen darauf haben, wie viel Zeit und Rechenleistung das Training in Anspruch nimmt. Ebenso kann die Vorbereitung des Datensatzes durch Entfernen von Duplikaten oder minderwertigen Daten die Dauer und Intensität des Trainings beeinflussen. Auch die Wahl der Hardware und Entscheidungen zum Parallelismus, um nur zwei von vielen Aspekten zu nennen, wirken sich auf den Rechenbedarf beim LLM-Training aus.

Das Training ist nicht das Ende der Anforderungen an Rechenleistung, Speicher und Kapazität eines LLM. Der Betrieb eines LLM bedeutet, ein Petabyte großes Speichersystem am Laufen zu halten und mit mehreren Servern zu verbinden, die jeweils über großen Arbeitsspeicher verfügen. Je mehr Anwendungen und Anwender, desto mehr Infrastruktur benötigt das LLM.

Die Rolle von Cloud Computing in LLMs

Eine Cloud Computing-Plattform ist möglicherweise die beste Lösung für den enormen Umfang und die hohen Verarbeitungsanforderungen eines LLM. Eine Public Cloud-Plattform wie Amazon Web Services (AWS) bietet die unbegrenzte Skalierbarkeit, den Storage, die Cluster-Flexibilität und die Rechenleistung, die LLMs benötigen. 

Cloud-Infrastruktur für LLMs

LLM-Infrastrukturmanager haben die Wahl zwischen verschiedenen Hardware- und Architekturoptionen. Wie viele KI-Anwendungen, arbeiten LLMs besonders gut auf Servern mit Grafikprozessoren (GPUs), die für beschleunigte Rechenaufgaben entwickelt wurden. In einigen Fällen kann es sinnvoller sein, ein LLM auf Tensor Processing Units (TPUs) oder ähnlichen Komponenten bereitzustellen. TPUs wurden speziell für KI-Workloads entwickelt und sind daher möglicherweise schneller und effizienter als GPUs für das LLM-Training.

Eine Private Cloud ist eine weitere Option für LLMs. Dieser Ansatz hat zwar einige der Nachteile einer On-Premises-LLM-Instanz, z. B. die Beschaffung und Einrichtung der gesamten Ausrüstung, aber die Cloud-Architektur ermöglicht Flexibilität, wenn sich der Workload im Laufe der Zeit verändert. 

Vorteile von cloudbasierten LLMs

Die Cloud bietet eine Reihe von Vorteilen für Unternehmen, die LLMs erstellen möchten. Diese beziehen sich auf Kosten, Zugänglichkeit und Flexibilität.

Zugänglichkeit und Kosteneffizienz

Die Cloud senkt die Einstiegshürden für die Nutzung eines LLM. Eine On-Premises-Bereitstellung ist mit erheblichen Investitionskosten (CapEx) verbunden. Anschließend wird es relativ lange dauern, die gesamte Ausrüstung zu installieren, was spezielle Fachkenntnisse erfordert. Die Cloud umgeht beides und ermöglicht einen Pay-as-you-go-Ansatz ohne CapEx oder Kosten für den Betrieb von Rechenzentren. Die Cloud erlaubt außerdem eine effiziente Ressourcennutzung für LLMs. Es gelingt problemlos, während des Trainings Rechenleistung oder Speicher bei Bedarf hinzuzufügen und die Infrastruktur des LLMs beim Übergang zum Betrieb wieder zu reduzieren.

Flexibilität und Zusammenarbeit

Die Nutzung einer der großen Cloud-Plattformen ermöglicht Support in mehreren Regionen. Performance- und Latenzanforderungen, z. B. ein garantierter Service-Level mit einer Reaktionszeit von einer Sekunde durch das LLM, können eine Bereitstellung an mehreren Standorten nötig machen. Diese Bereitstellung in mehreren Regionen kann auch erforderlich sein, um die Anforderungen verschiedener Geschäftseinheiten zu erfüllen, die jeweils eine eigene LLM-Instanz benötigen. Mit der Cloud ist es jedoch auch möglich, dass Beteiligte in Echtzeit am LLM zusammenarbeiten – unabhängig vom Standort. 

Schnelle Innovationen und Updates

Die Bereitstellung eines LLM auf einer Public Cloud-Plattform bietet den weiteren Vorteil, dass Sie Zugriff auf die neuesten Entwicklungen haben, ohne umständliche oder zeitaufwendige Upgrades durchführen zu müssen. Wenn Sie beispielsweise feststellen, dass Ihr LLM mit TPUs besser bedient wäre als mit GPUs, können Sie diese Änderung in der Cloud schnell und mit relativ geringem Aufwand vornehmen. Im Vergleich dazu wären die Anschaffung und Bereitstellung von TPU-Servern On-Premises ein großes Unterfangen. In der Cloud können Sie außerdem mit verschiedenen Stacks und Cluster-Konfigurationen sowie vielen anderen Variablen experimentieren.

Herausforderungen bei der Implementierung von LLMs in der Cloud

Vor dem Hintergrund dieser Vorteile sollte jedoch darauf hingewiesen werden, dass die Implementierung von LLMs in der Cloud auch eine Reihe von Herausforderungen mit sich bringt. Es ist ratsam, Kosten- und Ressourcenfragen sowie Faktoren wie Datensicherheit und Performance sorgfältig zu prüfen. 

Ressourcen- und Kostenmanagement

Durch das Training und den Betrieb eines LLM in der Cloud entfallen zwar die Investitionskosten, doch die Kosten für den Betrieb einer umfangreichen Cloud-Instanz können sich im Laufe der Zeit summieren. Es empfiehlt sich, den Bedarf an Rechenleistung, Arbeitsspeicher und Storage im Voraus sorgfältig zu ermitteln. Die Wahl des Technologie-Stacks kann in diesem Zusammenhang einen großen Unterschied machen. Einige Plattformen ermöglichen eine höhere Effizienz als andere. In diesem Zusammenhang ist es ratsam, zu planen, wie sich die Performance-Anforderungen mit Ihren Budgetvorgaben in Einklang bringen lassen. Möglicherweise benötigen Sie nicht in allen Use Cases die gleichen Service-Levels. 

Datensicherheit und Compliance

LLMs können Cyberrisiken und Compliance-Probleme mit sich bringen. Dies kann passieren, wenn das Modell sensible oder private Daten für seinen Trainingsprozess verwendet. Wenn das LLM beispielsweise medizinische Daten erfasst und damit trainiert, könnten private Patientendaten in den generierten Texten auftauchen. Deswegen empfiehlt es sich, den Trainingsdatensatz des LLM zu überprüfen und Daten zu entfernen, die nicht darin enthalten sein sollten. Eine Alternative ist die Maskierung von Daten, beispielsweise durch Anonymisierung, sodass private Informationen vor dem LLM geschützt werden.

Die neue Generation von LLMs ist aufregend, aber sie stellt lediglich den nächsten Schritt in einem Prozess dar, der vor Jahren begonnen hat und sich im Laufe der Zeit weiterentwickeln wird. Die Funktionalität wird sich verbessern. Das Training wird effizienter werden. Gleichzeitig werden auch Themen wie der Energieverbrauch zu einem Faktor bei der Entscheidung für den Einsatz von LLMs.

Föderiertes Lernen und hybride Modelle

Ein neuer Ansatz für das Training von LLMs, der zunehmend an Bedeutung gewinnt, ist das föderierte Lernen. Bei diesem Machine Learning-Prozess können mehrere Entitäten ein Modell trainieren, ohne Daten auszutauschen. Dies trägt zum Schutz der Privatsphäre und zur Sicherheit bei. Dennoch kann jede Entität von den sprachlichen Fähigkeiten der anderen profitieren.

Hybrid Cloud-Lösungen sind eine weitere neue Option, die einige der Leistungs- und Kontrollprobleme adressiert, die mit cloudbasierten LLMs einhergehen. Da sich das LLM über die On-Premises-Infrastruktur und die Cloud erstreckt, ist die Flexibilität höher. Anwender können Teile des LLM, die eine hohe Performance erfordern, On-Premises platzieren und für alles andere die wirtschaftlichen Vorteile der Cloud nutzen. 

Umweltfreundliche KI

LLMs können so groß und rechenintensiv sein, dass ihr Energieverbrauch für Unternehmen, die Wert auf Nachhaltigkeit legen, problematisch werden kann. Für KI-Workloads stehen nun nachhaltige IT-Lösungen zur Verfügung. Durch die Modernisierung der unterstützenden Infrastruktur eines LLM und die effiziente Konfiguration des Systems lassen sich der Energieverbrauch und die Umweltbelastung eines LLM reduzieren.

Fazit

LLMs sind mittlerweile so weit fortgeschritten, dass sie die menschliche Sprache mit bemerkenswerter Genauigkeit verstehen, ausdrücken und zusammenfassen können. Die Use Cases reichen vom Kundenservice über die medizinische Praxis bis hin zu vielen anderen Bereichen. LLMs trainieren sich selbst anhand riesiger Textdatensätze und nutzen Transformer und neuronale Netze, um Sprache vorhersagen und Bedeutungen anhand von Wortmustern ableiten zu können. Der Workload eignet sich gut für die Cloud – insbesondere aufgrund des Bedarfs an Skalierbarkeit und Flexibilität. Um ein LLM effizient und kostengünstig in der Cloud zu betreiben, müssen jedoch der am besten geeignete Cloud-Stack ausgewählt und ein Gleichgewicht zwischen Ressourcen und Performance-Anforderungen gefunden werden.