Warum ernsthafte Enterprise-KI drei Säulen braucht – und das LLM die unwichtigste davon ist.
Wenn ich in den letzten Monaten mit CIOs, IT-Leitern oder Datenarchitekten gesprochen habe, dreht sich die Debatte fast immer um die falsche Achse. Welches Modell? GPT-5 oder Claude? Open Source oder Closed? Wie groß muss das Kontextfenster sein? Und wenn die Antworten halluzinieren – dann eben Fine-Tuning, vielleicht noch ein Reasoning-Layer obendrauf, oder einfach ein anderes Modell.
Das ist jedoch die falsche Diskussion.
Meine These, die wir mit neonet.AI seit zwei Jahren in den Markt tragen: Das Sprachmodell ist die austauschbare Komponente. Es ist die Commodity. Was wirklich zählt, ist das, was neben dem Modell steht, und ihm Bedeutung gegenüberstellt.
Warum LLMs alleine im Enterprise-Kontext nicht funktionieren
Ein Large Language Model ist im Kern ein statistisches Sprachmodell. Es weiß, welche Token mit welcher Wahrscheinlichkeit auf welche anderen folgen. Es hat ein gigantisches Weltwissen aus dem Trainingskorpus – aber es hat keinerlei strukturierte Vorstellung davon, was in deinem Unternehmen Wahrheit ist.

Diese Lücke ist die eigentliche Engineering-Aufgabe. RAG ist ein erster Workaround, aber RAG mit reinen Vektor-Embeddings bleibt unscharf – es liefert ähnlichen Text, nicht wahren Kontext. Für die meisten „Wo ist mein Urlaubsantrag“-Fragen reicht das. Für die Frage „Welche Investitionsentscheidung müssen wir treffen, wenn das Geräte-Inventar in Werk 3 unter dem Sicherheitsschwellwert unserer Compliance-Verpflichtung X liegt“ aber eben nicht.
„Mitarbeiter X hat 28 Resturlaubstage“ und „Mitarbeiter X hat 2,8 Resturlaubstage“ haben fast identische Embeddings und unterschiedliche arbeitsrechtliche Konsequenzen. Vektor-Ähnlichkeit ist nicht dasselbe wie semantische Wahrheit.
Hier kommen die drei Säulen ins Spiel.
Die drei Säulen

Alle drei Säulen für sich genommen sind alte Hüte – Knowledge Graphs kennt jeder Semantic-Web-Veteran seit zwanzig Jahren, Workflow-Engines gibt es seit den 90ern, und über Governance reden wir, seit der erste Compliance-Officer geboren wurde. Die These ist nicht, dass eines dieser Themen neu ist. Die These ist, dass erst ihr orchestriertes Zusammenspiel das LLM in die Lage versetzt, im Unternehmenskontext überhaupt verlässlich zu liefern.
Säule 1 – Daten: Knowledge Graph mit deterministischem Wahrheitsanker
Die Datenseite ist, technisch gesehen, der schwerste Teil. Wir bauen einen Property-Graph in Neo4j als zentralen semantischen Layer, in den wir Daten aus den Quellsystemen über RML/R2RML-Mappings einspielen. W3C-Ontologien definieren die Vokabulare, SHACL die Constraints.
SHACL ist der entscheidende Punkt. Ein Sprachmodell ist stochastisch: bei gleicher Eingabe können unterschiedliche Antworten herauskommen. SHACL ist deterministisch: gleiche Daten plus gleiche Shape ergeben immer dasselbe Ergebnis. Jede Verletzung produziert einen sh:ValidationReport mit exakter Begründung – welcher Knoten, welche Property, welche Regel. Das LLM darf raten. SHACL entscheidet, ob das Geratene konsistent ist.
Konkret laufen zwei Modi parallel auf demselben Graphen:
- Semantic Layer – request-getrieben. Eine eingehende Anfrage ans LLM wird durch den Graphen geerdet, das LLM bekommt strukturierte Fakten als Kontext, die Antwort wird vor Auslieferung gegen SHACL-Constraints validiert. Halluzinationen werden auf der Architekturebene abgefangen, nicht durch besseres Prompting.
- Pulse – event-getrieben. Änderungen in den Quellsystemen werden per Change Data Capture in den Graphen gespiegelt, gegen Ontologie-Patterns geprüft, auf Drift und Downstream-Impact analysiert. Eine Änderung in System A, die erst in drei Tagen zu falschen Antworten in System B führen würde, wird heute sichtbar.
Über 400 Konnektoren binden Quellsysteme an – sowohl für den Ingest in den Graphen als auch für den Write-Back. Das heißt: Wenn das LLM eine semantisch geprüfte Aktion bestimmt, schreibt die Plattform das Ergebnis direkt zurück in SAP, ServiceNow oder Workday. Kein „AI sagt dir was du tun sollst, klick dich dann selbst durch das ERP“.
Säule 2 – Prozesse: Vom Prompt zum produktiven Agenten
Statisches Wissen reicht nicht. Im Unternehmen passiert Wertschöpfung im Fluss und der Fluss braucht Prozesse, die etwas tun, nicht nur reden.
Die zentrale Komponente dieser Säule ist unser Process Designer: ein visueller Editor mit darunterliegender BPMN-Engine, in dem man aus natürlicher Sprache vollständige Agenten-Workflows generieren kann. Du beschreibst, was passieren soll – „wenn eine Krankmeldung im SuccessFactors eintrudelt und der Mitarbeiter im selben Quartal die fünfte ist, prüfe gegen das BEM-Regelwerk und erstelle bei Bedarf einen Vorgang in ServiceNow mit Eskalation an die zuständige Führungskraft“ – und der Designer baut den Workflow, mit MCP-Tool-Bindings zu den beteiligten Systemen, mit Entscheidungsknoten, mit Human-in-the-Loop-Approval-Gates an den richtigen Stellen.
Unter der Haube läuft das auf Temporal für Long-Running-Orchestrierung und DSPy für Prompt-Optimierung der einzelnen Reasoning-Schritte. Die Agenten sind durchgängig MCP-fähig – sie können nicht nur lesen („talk to your data“), sondern auch schreiben, Events auslösen, andere Agenten anstoßen, Aktionen in Drittsystemen ausführen. Das ist der Unterschied zwischen einem Chatbot und einem produktionsreifen Agenten.
Für Entwickler-Teams gibt es darüber hinaus eine Enterprise-Vibe-Coding-Schicht: MCP-Server, mit denen Claude Code, Cursor, Windsurf oder GitHub Copilot direkt gegen den semantischen Layer und die Governance-Schicht arbeiten. Wer im Konzern KI-gestützt entwickelt, bekommt den Unternehmens-Kontext und die Compliance-Constraints zur Build-Zeit ins eigene Tool, nicht erst beim Deploy.
Säule 3 – Governance: der oft vergessene Layer, der über Erfolg entscheidet
Über Daten und Prozesse spricht jeder. Über Governance fast niemand, bis der erste regulatorische Audit ansteht oder die BaFin Fragen zur KI-gestützten Entscheidungsfindung stellt. MaRisk, BAIT, EU AI Act, NIS2, DORA, CRA, CSRD: Die Liste der Frameworks, die direkt oder indirekt auf KI-Einsatz im Unternehmen einschlagen, wird länger, nicht kürzer.
Governance in neonet.AI ist kein PDF in SharePoint, sondern ausführbarer Code. Drei Bausteine greifen ineinander:
Der Compliance Agent ist ein MCP-Server, der direkt in der Entwicklungsumgebung läuft, Shift-Left, also bevor Code überhaupt gemerged wird. Beim Vibe-Coding bekommen Claude Code & Co. den regulatorischen Kontext in Echtzeit. Schreibst du einen Agenten, der auf personenbezogene Daten zugreift? Der Compliance Agent weist dich auf die Art-30-Pflicht hin, schlägt das passende RBAC-Pattern vor, generiert die DSFA-Vorlage. Beim Deploy prüft die Policy Engine deterministisch gegen die hinterlegten Regeln und blockt bei Verstößen am Code Security Gate.
Die Policy Engine verwaltet Regeln als YAML, git-versioniert, testbar, diffbar wie jeder andere Code-Artefakt. Dahinter liegt ein Regulatory Graph , auch das wieder Neo4j, der die Beziehungen zwischen Regulation → Anforderung → Policy → Control → Agent → Data Classification abbildet. Das ist der Grund, warum die Plattform für einen konkreten Agenten in Sekunden sagen kann, welche AI-Act-Anforderung greift, welche internen Policies das umsetzen und ob die aktuelle Implementierung konform ist.
Der Evidence Generator produziert die Artefakte, die du im Audit brauchst: Audit Trail, Lineage zwischen Antwort und Quelldaten, DSFA-Dokumente, Verfahrensverzeichnis nach Art. 30, AI-Act-Dokumentation, Betriebsrats-Anlagen. Alles reproduzierbar, alles aus dem gleichen Graphen abgeleitet, der den operativen Betrieb auch fährt.
Das Gesamtbild

Das LLM in der Mitte? Austauschbar. Heute GPT-5, morgen Claude, übermorgen das, was wir noch nicht kennen. Eine Lizenzentscheidung, kein Architekturentscheid. Was nicht austauschbar ist: der semantische Kontext, in dem dieses Modell operiert. Das ist die Plattform-Schicht. Das ist die eigentliche Arbeit.
Was übrigens auch erklärt, warum wir mit Microsoft Copilot, SAP Joule und allen relevanten Frontends auf dem Markt sauber interoperieren. Wir konkurrieren nicht mit der UI-Schicht, wir liefern das, was darunter passieren muss, damit die UI-Schicht überhaupt produktionsreife Antworten bekommt.
Wo das Ganze läuft
Ein Punkt, der bei strategischen Gesprächen mit deutschen Konzernen, Behörden und kritischer Infrastruktur regelmäßig den Unterschied macht: die komplette Plattform läuft auf einem Kubernetes-Cluster. Deployment über ArgoCD im GitOps-Modus, alle Plattformdienste containerisiert, jede Komponente skaliert horizontal.
Das heißt in der Praxis: Wo der Cluster läuft, ist eine Entscheidung des Kunden, nicht von uns.
- AWS, Azure, GCP – wenn der Kunde ohnehin Hyperscaler-strategisch unterwegs ist
- STACKIT, Hetzner, Ionos, T-Systems – wenn EU-Hosting hart erforderlich ist
- Private Cloud auf VMware/OpenShift – wenn der Konzern eine eigene Plattform-Strategie fährt
- On-Prem im eigenen Rechenzentrum – wenn die Daten das Haus nicht verlassen dürfen
- Air-Gapped – wenn auch das Internet draußen bleiben muss
Dazu der LLM-Layer: Bring your own model. OpenAI über Azure, Anthropic über AWS Bedrock, Mistral über die eigene EU-Cloud, lokale Open-Source-Modelle auf eigenem GPU-Cluster. Die Plattform ist agnostisch — was zurück zur Anfangsthese führt: Das Modell ist die Commodity.
Wer Enterprise-KI als Modell-Wettrennen begreift, hat das Spiel nicht verstanden – oder verkauft Modelle 🙂
Fazit
Die echte Wertschöpfung liegt nicht im Sprachmodell, sondern in der semantischen Infrastruktur, die ihm Bedeutung gegenüberstellt. Drei Säulen: Daten, Prozesse, Governance. Orchestriert auf einer freien Runtime. Sonst funktioniert es nicht.
Genau dafür gibt es neonet.AI.
