AI EducationTransformer ArchitectureLLMsTechnology Deep Dive

Einblick in die KI-Blackbox: Wie KI *wirklich* funktioniert

17. Mai 202515 Min. Lesezeit
Eine elegante schwarze Box, die sich öffnet und leuchtende, vernetzte Knoten und Datenpfade enthüllt, was die Entmystifizierung der KI symbolisiert.

Jedes Mal, wenn Sie mit einem KI-Chatbot interagieren, erleben Sie eine der elegantesten Architekturen der Informatik in Aktion: den **Transformer**. Doch für die meisten Geschäftsanwender bleiben diese Systeme eine mysteriöse „Blackbox“, die auf unerklärliche Weise bemerkenswert menschenähnlichen Text produziert.

Bei Fanktank glauben wir, dass das Verständnis der Grundlagen nicht nur Ingenieuren vorbehalten ist. Wenn Sie verstehen, *wie* eine KI denkt, können Sie klügere Entscheidungen treffen, bessere Prompts schreiben, Kosten effektiv verwalten und letztendlich zuverlässigere und wertvollere Lösungen entwickeln.

Obwohl wir einige Konzepte vereinfacht darstellen, bleiben die Kernprinzipien korrekt und geben Ihnen einen echten Einblick in die Funktionsweise dieser Systeme.

<br/>

Das Kernprinzip: Vorhersage des nächsten Tokens

Das wichtigste Konzept, das man über grosse Sprachmodelle (Large Language Models) verstehen muss, ist folgendes: **Ihre grundlegende Aufgabe ist es, den nächstwahrscheinlichste „Token“ (ein Wort oder Wortteil) in einer Sequenz vorherzusagen.**

Wenn Sie fragen: „Was sind die Hauptdienstleistungen von Fanktank?“, „weiss“ das Modell die Antwort nicht im menschlichen Sinne. Stattdessen nimmt es den **gesamten bisherigen Kontext**, speist ihn in das **Sprachmodell** ein und führt eine riesige Berechnung durch, um die statistische Wahrscheinlichkeit für jeden möglichen nächsten Token zu bestimmen. Dann wählt es einen aus, fügt ihn der Sequenz hinzu, und diese *neue, längere Sequenz* wird zum Kontext für die Vorhersage des nächsten Tokens.

Dieser iterative, „autoregressive“ Prozess ist die Grundlage für alles, was ein grosses Sprachmodell tut. Das Modell generiert Text Token für Token, wobei jeder neue Token auf allen vorhergehenden aufbaut. Die folgende Visualisierung demonstriert diesen Kreislauf anhand unserer Beispielkonversation.

Dieser autoregressive Prozess erklärt, warum KI manchmal „halluzinieren“ kann. Das Modell strebt nicht nach Wahrheit im menschlichen Sinne – es erzeugt statistisch plausible Fortsetzungen basierend auf Mustern, die es während des Trainings gelernt hat. Wenn es einen leicht falschen Token erzeugt, wird dieser Fehler Teil des Kontexts für den *nächsten* Token, was das Modell potenziell auf einen faktisch falschen, aber sprachlich kohärenten Pfad führen kann.

Das Verständnis dieses grundlegenden Mechanismus ist entscheidend, da er sowohl die Stärke als auch die Grenzen aktueller KI-Systeme offenbart. Die Antworten des Modells werden nicht aus einer Datenbank mit Fakten abgerufen, sondern Token für Token auf der Grundlage gelernter statistischer Muster konstruiert.

---

Die Bausteine: Tokens & Vektoren

Obwohl es konzeptionell einfach ist, sich vorzustellen, dass das Modell das nächste „Wort“ vorhersagt, ist die Realität nuancierter. Um die immense Vielfalt der menschlichen Sprache effizient zu handhaben, verwenden Modelle sogenannte **Tokens**.

Ein Token kann ein ganzes Wort wie „bietet“, ein Wortteil wie bei `Haupt` + `d` + `ien` + `st` + `le` + `ist` + `ungen` für „Hauptdienstleistungen“ oder auch nur ein Satzzeichen sein. Die Aufteilung von Text in diese standardisierten Teile ermöglicht es dem Modell, ein festes, überschaubares Vokabular zu haben und dennoch jedes benötigte Wort zusammensetzen zu können. Diese Subword-Tokenisierung ist eine entscheidende Innovation, die moderne Sprachmodelle sowohl effizient als auch flexibel macht.

Diese Tokens werden zu den wahren Bausteinen der KI-Textgenerierung. Jeder Token wird dann in lange Zahlenlisten umgewandelt, sogenannte **Vektoren**, die seine semantische Bedeutung erfassen und es dem Modell ermöglichen, Beziehungen zwischen Konzepten mathematisch zu verstehen.

Beachten Sie, wie „Hauptdienstleistungen“ in mehrere Teile zerlegt wird, da es sich um ein langes, zusammengesetztes Wort handelt. Diese Subword-Tokenisierung erklärt, warum einige scheinbar einfache Aufgaben auf Zeichenebene für KI-Modelle überraschend schwierig sein können.

Warum „Zähle die ‚r‘ in Rhabarbermarmelade“ schwierig ist

Betrachten Sie diese scheinbar einfache Aufgabe: *"Zähle die ‚r‘ in Rhabarbermarmelade"*

Das Modell verarbeitet möglicherweise diese Tokens: `Rha` `bar` `ber` `marme` `lade`.

Das Modell sieht nicht die einzelnen Buchstaben r-h-a-b-a-r-b-e-r-m-a-r-m-e-l-a-d-e. Stattdessen sieht es hochdimensionale Vektoren für die Silben-ähnlichen Tokens. Es muss die Anzahl der 'r's aus diesen semantischen Blöcken ableiten, ohne direkten Zugriff auf die einzelnen Zeichen zu haben.

Deshalb können Aufgaben, die für Menschen trivial erscheinen, selbst die fortschrittlichsten KI-Modelle vor Probleme stellen. Neuere, auf Schlussfolgern (Reasoning) trainierte Modelle können diese Hürde jedoch überwinden. Sie tun dies nicht durch latentes „Nachdenken“, sondern indem sie den Prozess explizit in den Kontext schreiben. In einem Zwischenschritt generiert das Modell das Wort als eine Sequenz einzelner Buchstaben-Tokens: `R`, `h`, `a`, `b`, `a`, `r`, `b`, `e`, `r`... Sobald diese Buchstaben im Kontextfenster sichtbar sind, kann das Modell im nächsten Schritt die Anweisung befolgen und die Vorkommen des Buchstabens 'r' zählen. Dies unterstreicht das Kernprinzip: Alles, was das Modell verarbeitet, muss explizit als Token im Kontext vorhanden sein.

Verschiedene Modelle, verschiedene Tokenizer

Unterschiedliche KI-Anbieter verwenden unterschiedliche Tokenisierungsansätze. GPT-4 verwendet `tiktoken` mit ungefähr 100.000 Vokabulareinträgen, während Claude einen anderen, für seine Architektur optimierten Tokenizer nutzt. Llama-Modelle verwenden die SentencePiece-Tokenisierung, und kleinere Modelle haben oft kleinere Vokabulare, was zu mehr Token-Aufteilungen für denselben Text führt.

Diese Unterschiede haben erhebliche Auswirkungen. Derselbe Text kann bei verschiedenen Anbietern eine unterschiedliche Anzahl von Tokens erfordern, was sich direkt auf die Kosten auswirkt, da die meisten APIs pro Token abrechnen. Auch die Leistung kann variieren – einige Modelle können aufgrund ihres Tokenizer-Designs bestimmte Sprachen oder Fachgebiete besser handhaben. Beim Aufbau von Produktionssystemen ist es unerlässlich, Ihre spezifischen Anwendungsfälle mit dem Tokenizer jedes Modells zu testen, um die tatsächlichen Kosten und Leistungsmerkmale zu verstehen.

**Implikation für Unternehmen:** Die Tokenisierung wirkt sich direkt auf die Kosten aus. Zu verstehen, wie Ihr Text von verschiedenen Anbietern tokenisiert wird, ist entscheidend für die Verwaltung von API-Ausgaben und die Leistungsoptimierung.

---

Der Motor: Neuronale Netze & Attention

Die Token-Vektoren werden in das **neuronale Netzwerk** eingespeist, eine riesige Struktur aus miteinander verbundenen „Neuronen“, die in Schichten organisiert sind. Das „Wissen“ des Modells ist in Milliarden von **Gewichtungen** (weights) gespeichert – numerische Werte, die die Stärke der Verbindungen zwischen diesen Neuronen definieren. Diese Gewichtungen werden während des Trainings mit riesigen Textmengen gelernt und bleiben nach Abschluss des Trainings unverändert.

Die Schlüsselinnovation der Transformer-Architektur ist der **Self-Attention-Mechanismus**. Dieser ermöglicht es jedem Token, jeden anderen Token im Kontext zu „betrachten“ und zu bestimmen, welche am relevantesten für die Vorhersage des nächsten Tokens sind. Anstatt Text sequenziell wie ältere Modelle zu verarbeiten, ermöglicht Attention dem Modell, Beziehungen zwischen zwei beliebigen Tokens unabhängig von ihrer Entfernung im Text zu berücksichtigen.

**Implikation für Unternehmen:** Das Wissen des Modells ist statisch und nach dem ursprünglichen Training in diesen Gewichtungen „eingefroren“. Das Modell lernt nicht aus Ihren individuellen Gesprächen oder aktualisiert sein Wissen basierend auf neuen Informationen, die Sie sitzungsübergreifend bereitstellen.

In unserer Beispielantwort unten können Sie mit der Maus über ein Wort fahren, um zu sehen, wie stark es auf andere Wörter „achtet“ (attends), um seine Rolle im Satz zu verstehen.

Beachten Sie, wie „individuelle“ stark auf „KI-Entwicklung“ achtet und wie Begriffe wie „KI-Strategie“ und „RAG-Systeme“ eine Verbindung zu „bietet“ haben. Dieser Attention-Mechanismus ermöglicht es dem Modell, semantische Beziehungen und Kontext zu verstehen und so kohärente, kontextuell angemessene Antworten zu generieren.

Die Attention-Gewichtungen werden für jeden Text dynamisch berechnet, sodass das Modell seinen Fokus an den spezifischen Kontext anpassen kann. Diese Flexibilität ermöglicht es demselben Modell, verschiedenste Aufgaben von kreativem Schreiben bis hin zu technischer Analyse zu bewältigen.

Skalierung jenseits der quadratischen Barriere

Obwohl diese Beschreibung die Macht der Attention erfasst, gibt es eine wichtige technische Realität im Hintergrund. Der ursprüngliche Ansatz „jeder Token achtet auf jeden anderen Token" hat **O(n²)-Komplexität** – das bedeutet, dass Rechenaufwand und Speicherbedarf quadratisch mit der Sequenzlänge wachsen. Für einen Kontext mit einer Million Tokens würden Billionen einzelner Attention-Berechnungen erforderlich sein.

Moderne Long-Context-Modelle überwinden diese Barriere durch eine Kombination verschiedener Ansätze. **FlashAttention** optimiert beispielsweise die Speichernutzung durch intelligente Datenbewegung zwischen GPU-Speicherebenen, ohne die grundlegenden Attention-Berechnungen zu verändern.

Die meisten anderen Ansätze sind bewusste **Approximationen**, die Geschwindigkeit gegen Genauigkeit tauschen. **Sparse-Attention-Muster** wie Sliding Windows lassen jeden Token nur auf ein festes Fenster nahegelegener Tokens (z.B. 512) achten, wodurch die Komplexität von O(n²) auf O(n×w) reduziert wird. **BigBird** kombiniert lokale Fenster mit strategischen „globalen" Tokens (wie Dokumentenstart oder Fragetokens) und zufälligen Fernverbindungen. **ALiBi** fügt eine einfache Distanzstrafe hinzu – je weiter zwei Tokens voneinander entfernt sind, desto mehr wird ihr Attention-Score reduziert, was natürlich zu einer Bevorzugung nahegelegener Tokens führt.

Diese Techniken funktionieren gut für viele Anwendungen – Dokumentenklassifizierung, Zusammenfassungen, einfache Fragen-Antworten – aber sie haben **messbare Einschränkungen**. Subtile Langstrecken-Schlussfolgerungen, komplexe Argumentationsketten und nuancierte Verbindungen zwischen entfernten Textteilen können verloren gehen. Wenn Modelle wie Gemini 1.5 Pro 2 Millionen Tokens verarbeiten können, bedeutet das nicht, dass sie jeden Token mit derselben Präzision verstehen wie bei kurzen Sequenzen.

**Der Industriekonsens**: Für die meisten geschäftlichen Anwendungen ist unvollkommene Attention auf riesige Kontexte wertvoller als perfekte Attention auf begrenzte Kontexte. Diese Kompromisse erklären, warum RAG-Systeme oft effektiver sind als das Einpacken aller Informationen in einen riesigen Kontext.

---

Der Treibstoff: Kontext vs. Gewichtungen & die Macht von RAG

Wenn das Wissen des Modells in seinen Gewichtungen eingefroren ist, wie beantwortet es dann Fragen zu Ihren privaten Dokumenten oder aktuellen Ereignissen? Die Antwort liegt im **Kontextfenster** – der Textmenge, die das Modell bei der Generierung seiner Antwort berücksichtigen kann.

Das Modell kann nur mit Informationen arbeiten, die Sie ihm im aktuellen Gespräch zur Verfügung stellen. Wenn Sie nach spezifischen Unternehmensinformationen fragen, ohne diese Informationen in Ihren Prompt aufzunehmen, hat das Modell keine andere Wahl, als Antworten basierend auf seinen allgemeinen Trainingsdaten zu generieren. Diese Einschränkung ist die Hauptursache für Halluzinationen in Geschäftsanwendungen.

**Retrieval-Augmented Generation (RAG)** löst dieses Problem auf elegante Weise. Bevor eine Frage an das Sprachmodell gesendet wird, durchsucht ein RAG-System die Wissensdatenbank Ihres Unternehmens und ruft relevante Textausschnitte ab. Diese Ausschnitte werden dann dem Modell als Kontext zur Verfügung gestellt, wodurch seine Antwort auf faktenbasierten, aktuellen Informationen aus Ihrer spezifischen Domäne fusst.

In unserem Beispiel gibt das Modell ohne RAG eine allgemeine Antwort darüber, was Fanktank „wahrscheinlich“ anbietet. Mit RAG, das den tatsächlichen Website-Inhalt als Kontext bereitstellt, gibt es die präzise, faktenbasierte Antwort, die direkt aus verlässlichen Quellen stammt.

Die Stärke von RAG liegt in der Fähigkeit, das Sprachverständnis grosser Modelle mit den spezifischen, aktuellen Informationen aus Ihren Systemen zu kombinieren. So entsteht ein System, das natürliche Sprachfragen verstehen und gleichzeitig genaue, mit Quellen belegte Antworten liefern kann.

**Implikation für Unternehmen:** Für jede Anwendung, die Wissen über Ihre spezifischen Geschäftsdaten, aktuelle Ereignisse oder domänenspezifische Informationen erfordert, ist ein gut konzipiertes RAG-System unerlässlich, um vertrauenswürdige und zuverlässige KI-Tools zu entwickeln.

---

Die Steuerung: Prompts & Parameter

Sie steuern die Ausgabe der KI über zwei primäre Mechanismen: die Prompt-Struktur und API-Parameter, die den Generierungsprozess kontrollieren.

Der **System-Prompt** fungiert als verborgene Anweisung, die die Persönlichkeit, die Betriebsregeln und die allgemeinen Ziele der KI definiert. Diese dauerhafte Anweisung beeinflusst jede Antwort, die das Modell generiert. Der **User-Prompt** enthält die spezifische Frage oder Aufgabe, die die KI ausführen soll.

Über den Text hinaus steuern **Parameter**, wie das Modell bei der Generierung Tokens auswählt. Der wichtigste ist die **Temperatur**, die die Zufälligkeit der Token-Auswahl beeinflusst. Eine niedrige Temperatur (0.0-0.4) macht das Modell im Wesentlichen deterministisch und faktisch, da es immer den wahrscheinlichsten nächsten Token wählt. Eine hohe Temperatur (1.5-2.0) erhöht die Zufälligkeit und ermöglicht kreativere, aber weniger vorhersagbare Ergebnisse.

Anhand unserer Beispielanfrage können Sie unten sehen, wie die Temperatur den Stil der Antwort beeinflusst.

Unterschiedliche Temperatureinstellungen dienen unterschiedlichen Zwecken. Für faktenbasierte Aufgaben wie Datenextraktion, Zusammenfassungen oder die Beantwortung spezifischer Fragen gewährleisten niedrige Temperaturen konsistente, zuverlässige Ergebnisse. Für kreative Aufgaben wie Brainstorming, Storytelling oder das Generieren vielfältiger Ideen fördern höhere Temperaturen abwechslungsreichere und innovativere Antworten.

Andere Parameter wie `top_p` (Nucleus Sampling) und `max_tokens` bieten zusätzliche Kontrolle über den Generierungsprozess und ermöglichen es Ihnen, das Verhalten des Modells für spezifische Anwendungsfälle fein abzustimmen.

**Implikation für Unternehmen:** Die Steuerung dieser Parameter ist entscheidend für optimale Ergebnisse. Eine robuste KI-Lösung ermöglicht die dynamische Anpassung dieser Einstellungen je nach anstehender Aufgabe und gewährleistet so Zuverlässigkeit, wo sie benötigt wird, und Kreativität, wo sie angebracht ist.

---

Die Grenzen der KI verstehen: Was diese Systeme nicht können

Um KI effektiv zu nutzen, ist es ebenso wichtig zu verstehen, was diese Systeme grundsätzlich nicht können. Trotz ihrer beeindruckenden Fähigkeiten haben aktuelle Sprachmodelle mehrere inhärente Einschränkungen, die beeinflussen, wie sie in Geschäftskontexten eingesetzt werden sollten.

**Mustererkennung, kein echtes Verständnis:** Obwohl KI-Modelle Sprache mit bemerkenswerter Raffinesse verarbeiten können, führen sie im Grunde genommen eine statistische Mustererkennung durch und kein echtes Verstehen. Sie erkennen hervorragend Muster, die sie im Training gelernt haben, und wenden sie auf neue Situationen an, aber sie "verstehen" Konzepte nicht wirklich so wie Menschen.

**Kein Echtzeit-Lernen:** Die Modelle lernen oder aktualisieren sich nicht durch einzelne Gespräche. Jede Interaktion beginnt von neuem, und das Modell hat keine Erinnerung an frühere Austausche, es sei denn, Sie fügen diese Informationen explizit in den aktuellen Kontext ein. Das bedeutet, das Modell kann nicht durch Nutzung im Laufe der Zeit Wissen aufbauen oder sich Benutzerpräferenzen über Sitzungen hinweg merken.

**Begrenzte Kontextfenster:** Obwohl die Kontextfenster erheblich gewachsen sind, bleiben sie endlich. Aktuelle Modelle können typischerweise Zehntausende von Tokens verarbeiten, aber komplexe Dokumente oder lange Gespräche können diese Grenzen überschreiten. Wenn die Kontextgrenzen erreicht sind, muss das Modell frühere Informationen abschneiden, wodurch wichtige Details verloren gehen können.

**Selbstbewusste Falschaussagen:** Modelle können sachlich falsche Informationen mit völliger Überzeugung generieren. Da sie darauf trainiert sind, plausible Fortsetzungen statt sachlich korrekter zu produzieren, können sie selbstbewusst falsche Informationen behaupten, insbesondere zu Themen, die in ihren Trainingsdaten nicht gut vertreten sind, oder zu Ereignissen nach ihrem Trainingsschluss.

**Trainingsdaten-Stichtag:** Das Wissen des Modells ist zum Zeitpunkt des Trainings eingefroren. Es hat keine Kenntnis von Ereignissen, Entwicklungen oder Veränderungen, die nach der Erfassung seiner Trainingsdaten stattgefunden haben. Diese Einschränkung macht RAG-Systeme besonders wertvoll, um aktuelle, genaue Informationen zu gewährleisten.

**Begrenzte Denkfähigkeit:** Obwohl Modelle logisches Denken simulieren können, indem sie im Training gelernte Muster befolgen, führen sie kein echtes logisches Schliessen durch. Sie können bei neuartigen logischen Problemen, mehrstufigen Überlegungen, die die Aufrechterhaltung eines komplexen Zustands erfordern, oder bei Aufgaben, die ein echtes kausales Verständnis verlangen, Schwierigkeiten haben.

Diese Grenzen zu verstehen, schmälert nicht den Wert der KI – es geht darum, sie effektiv einzusetzen. Wenn Sie KI-Systeme unter Berücksichtigung dieser Einschränkungen konzipieren, können Sie robuste Lösungen schaffen, die die Stärken der Modelle nutzen und gleichzeitig ihre Schwächen durch geeignetes Systemdesign, menschliche Aufsicht und ergänzende Technologien ausgleichen.

**Implikation für Unternehmen:** Eine erfolgreiche KI-Implementierung erfordert die Gestaltung von Systemen, die diese Einschränkungen berücksichtigen. Dies kann Prozesse mit menschlicher Beteiligung (Human-in-the-Loop) für kritische Entscheidungen, RAG-Systeme für aktuelle Informationen und eine klare Aufklärung der Benutzer über die Fähigkeiten und Grenzen des Systems umfassen.

---

Fazit: Von der Blackbox zum Werkzeugkasten

Das Verständnis dieser Kernprinzipien verwandelt die KI von einer mysteriösen Blackbox in ein leistungsstarkes, verständliches Werkzeug. Indem Sie erkennen, dass KI durch Token-für-Token-Vorhersage arbeitet, für Genauigkeit vom Kontext abhängig ist und spezifische Einschränkungen hat, können Sie Lösungen entwickeln, die nicht nur intelligent, sondern auch zuverlässig und vertrauenswürdig sind.

Die Reise, die wir durch Tokenisierung, Attention-Mechanismen, Vorhersageprozesse, Kontextnutzung und Parametersteuerung unternommen haben, zeigt, wie diese Konzepte zusammenwirken, um die bemerkenswerten Fähigkeiten der KI zu schaffen. Jede Komponente spielt eine entscheidende Rolle für die Qualität und das Verhalten des Endergebnisses, während die von uns untersuchten Einschränkungen wesentliche Leitplanken für einen verantwortungsvollen Einsatz bieten.

Wenn Sie dieses Verständnis mit praktischen Werkzeugen wie RAG-Systemen und der richtigen Parametersteuerung kombinieren, können Sie KI-Lösungen entwickeln, die echten Geschäftswert liefern und gleichzeitig die Zuverlässigkeit und Genauigkeit gewährleisten, die Ihr Unternehmen verlangt.

**Bereit, über die Grundlagen hinauszugehen und eine KI-Lösung zu entwickeln, die auf einem tiefen Verständnis der Technologie beruht? Lassen Sie uns darüber sprechen, wie wir diese Prinzipien anwenden können, um Ihre spezifischen geschäftlichen Herausforderungen zu lösen.**

[Unsere KI-Dienstleistungen entdecken](/services) | [Kostenlose Beratung buchen](/contact)

---

Referenzen

Grundlagenforschung

Anschauliche Erklärungen

Technische Implementierung

Tokenisierung und Verarbeitung

Attention-Skalierung und -Optimierung

Fortgeschrittene Themen