Warum Ihre Fabrik kein Large Language Model braucht

Es gibt eine Annahme, die sich durch fast jede KI-Diskussion zieht: Wer KI ernstnehmen will, braucht ein Large Language Model. GPT-4o, Claude, Gemini — die großen Modelle, trainiert auf dem halben Internet, verfügbar über die Cloud, monatlich abgerechnet. Diese Annahme ist für viele Anwendungsfälle korrekt. Für die deutsche Industrie ist sie falsch.

Uwe Peter, Deutschlandchef von Cisco, hat das auf der Cisco Live in Amsterdam in einem Satz zusammengefasst: „Eine Fabrik zu steuern, muss ich nicht das ganze Internet trainieren."

Das klingt einfach. Es ist es nicht. Denn es stellt das Fundament um, auf dem die meisten KI-Entscheidungen im Mittelstand gerade getroffen werden.

Warum LLMs halluzinieren — und warum das in der Fabrik fatal ist

Large Language Models sind darauf ausgelegt, auf Basis von Wahrscheinlichkeitsverteilungen plausible Antworten zu erzeugen. Das funktioniert außerordentlich gut für offene Aufgaben: Texte schreiben, zusammenfassen, erklären. Es funktioniert schlecht, wenn das Ergebnis deterministisch sein muss — also wenn es nur eine richtige Antwort gibt und jede andere ein Problem ist.

In der Fertigung ist das täglich der Fall. Ein Roboterarm, der eine Schweißnaht setzt, braucht keine kreative Antwort. Er braucht die richtige. Ein Qualitätssensor, der eine Anomalie meldet, kann nicht mit 80-prozentiger Wahrscheinlichkeit richtig liegen — er muss es.

Peter formuliert es direkt: „Das Problem des Halluzinierens habe ich nicht, wenn ich kleine Modelle habe." Und weiter: „Wenn ich den Roboter in Echtzeit steuern will, brauche ich deterministische Ergebnisse. Der darf nicht halluzinieren."

Das ist keine theoretische Einschränkung. Es ist der strukturelle Unterschied zwischen einem Modell, das auf dem ganzen Internet trainiert wurde, und einem Modell, das ausschließlich auf den Daten einer Fabrik, einer Produktionslinie, eines Prozesses trainiert wurde. Der eingeschränkte Kontext ist kein Nachteil — er ist die Voraussetzung dafür, dass das Modell überhaupt industriell einsetzbar ist.

Der Vorteil kleiner Modelle liegt nicht in dem, was sie wissen. Er liegt in dem, was sie nicht wissen.

Industrielle KI im deutschen Mittelstand: Lokales Small Language Model steuert Fertigungsprozess deterministisch — ohne Cloud-Abhängigkeit und ohne Halluzinationsrisiko — Small Language Models in der Fertigung: kontextbegrenzt, deterministisch, lokal — das Gegenteil von ChatGPT.

Deutschland hat die Infrastruktur bereits

Der zweite Teil des Arguments betrifft nicht die Modelle, sondern den Ort, an dem sie laufen. Deutschland hat über 1.800 Rechenzentren — nach Cisco-Angaben die zweitgrößte Dichte weltweit, mehr als China. Und diese Rechenzentren liegen nah an dem, was sie versorgen sollen: an den Fabriken, den Produktionshallen, den Maschinenparkern in Baden-Württemberg, Bayern und Nordrhein-Westfalen.

Das bedeutet: Die physische Grundlage für lokale KI-Inferenz ist in Deutschland nicht erst zu schaffen. Sie ist vorhanden. Was fehlt, ist das Betriebsmodell, das diesen Datenschatz nutzbar macht — ohne ihn in US-amerikanische Cloud-Infrastruktur zu überführen.

Peter geht noch einen Schritt weiter. Er sagt, dass die Fähigkeit einer Volkswirtschaft, Tokens in eigenen Rechenzentren zu generieren — also KI-Anfragen lokal zu beantworten — in direkter Relation zum Wirtschaftswachstum stehen wird und zur nationalen Sicherheit. Das ist keine Marketing-Aussage. Es ist die strategische Einschätzung des Deutschlandchefs eines Unternehmens, das von den Chips bis zur Software die gesamte Netzinfrastruktur baut.

Wer KI-Inferenz an US-Hyperscaler auslagert, exportiert damit nicht nur Daten. Er exportiert Wertschöpfung.

Die Unabhängigkeitsfrage

Das führt zur dritten Dimension: Wer kontrolliert das Modell?

Peter ist in seiner Aussage zu Open-Source-Modellen bemerkenswert direkt. Er beschreibt das Zukunftsszenario, in dem ein persönlicher KI-Assistent alles gespeichert hat — Kontakte, Gesundheitsdaten, Kommunikation, Verträge. Und sagt dann: „Ich kann mir nicht vorstellen, dass ich da von einer Firma abhängig sein möchte. Dieses Modell sollte Open Source sein."

Was für Individuen gilt, gilt für Unternehmen erst recht. Ein mittelständisches Fertigungsunternehmen, das sein Prozesswissen, seine Fehlerhistorie und seine Maschinenparameter in ein proprietäres Cloud-Modell eingespeist hat, besitzt dieses Wissen nicht mehr vollständig. Es hat es geteilt. Und es hat sich abhängig gemacht — von Preisänderungen, von Nutzungsbedingungen, von geopolitischen Risikolagen, die heute niemand vollständig vorhersagen kann.

Der Air-Gap-Betrieb — also KI, die vollständig hinter der eigenen Firewall läuft — ist nicht die konservative Option. Er ist die strategisch souveräne.

Souveränes KI-Betriebsmodell für den deutschen Mittelstand: Lokale Small Language Models, Knowledge Injection und Air-Gap-Betrieb als Grundlage industrieller KI-Souveränität — Das KI-Betriebsmodell: Lokale Inferenz, kontrolliertes Wissen, keine Cloud-Abhängigkeit.

Was das für Ihre Entscheidung bedeutet

Die meisten KI-Projekte im Mittelstand starten mit der falschen Frage. Nicht: Welches große Modell sollen wir nehmen? — sondern: Für welchen Prozess brauchen wir welche Art von Modell?

Für offene Kommunikationsaufgaben — Angebotsentwürfe, Zusammenfassungen, interne Wissensdatenbanken — können LLMs sinnvoll sein, wenn sie mit Knowledge Injection und einem kontrollierten Kontext ausgestattet werden. Für industrielle Steuerung, Qualitätskontrolle und Echtzeit-Entscheidungen in der Fertigung ist ein kleines, lokal betriebenes Modell mit eingeschränktem Datensatz die einzig belastbare Architektur.

Model Quantization macht es heute möglich, dass ein 4-Bit-quantisiertes Modell auf einem handelsüblichen Server läuft — ohne GPU-Cluster, ohne Cloud-Anbindung, ohne variable Inferenzkosten. Die Amortisationsrechnung für diesen Weg sieht anders aus als für eine SaaS-Lizenz: einmalig investiert, dauerhaft kontrolliert.

Die Frage, die Uwe Peter stellt, ist dieselbe, die AGILERO Geschäftsführern stellt: Was soll die KI in Ihrem Unternehmen wissen — und was nicht? Wer diese Frage beantwortet hat, weiß automatisch, dass er kein Large Language Model braucht. Er braucht das richtige Modell für den richtigen Kontext.

Uwe Peter stellt im selben Interview noch eine zweite Frage, die mindestens genauso wichtig ist: Was passiert, wenn das richtige Modell zwar läuft — aber das Wissen der Experten trotzdem nicht ankommt? Dieses Übersetzungsproblem zwischen Domänen-Expertise und KI-System beschreibt er ebenfalls präzise. Agentic AI: Die Befreiung der Experten führt diesen Gedanken weiter.

Wenn Sie verstehen wollen, welche KI-Architektur für Ihr Unternehmen die richtige ist: KI-Potenzial-Check — oder direkt beim KI-Architekten nachfragen.