Das KI-Paradox: Warum 90 % KI nutzen und nur 5 % damit Geld verdienen

Es war ein ganz normaler Montagmorgen, irgendwo in einem Konferenzraum zwischen Leipzig und Düsseldorf. Auf dem Tisch lag ein 47-seitiges Dokument: die „KI-Roadmap" eines mittelständischen Maschinenbauers, erstellt von einer renommierten Unternehmensberatung für 85.000 Euro. Drei Pilotprojekte. Ein Workshop-Programm für die Belegschaft. Eine neue Softwarelizenz. Und auf dem Deckblatt, in großen Buchstaben: „KI wird Ihr Unternehmen transformieren."

Zwei Jahre später fragt der Geschäftsführer seinen IT-Leiter: „Was hat uns das eigentlich gebracht?" Der IT-Leiter zuckt die Schultern. Die Piloten sind abgeschlossen, die Lizenzen laufen, der Workshop ist lange vergessen. Messbar verändert hat sich, offen gesagt, nicht viel.

Diese Geschichte ist keine Ausnahme. Sie ist die Regel.

90 %

der Unternehmen geben an, KI einzusetzen

5 %

erzielen messbare Gewinne damit

Das ist das Paradoxon, dem ich in meinem zweiten Buch Das KI Paradox nachgegangen bin. Die Frage, um die sich jede Seite dreht: Warum funktioniert KI für die meisten Unternehmen nicht so, wie sie sollte? Und was machen die wenigen anders, bei denen es funktioniert?

Die Antwort, soviel kann ich hier schon sagen, ist nicht technisch. Sie ist strategisch, organisatorisch und manchmal schlicht eine Frage der Ehrlichkeit über das, was KI heute kann — und was sie nicht kann.

2025 hat sich etwas Fundamentales verändert

Wer die KI-Hype-Welle von 2022 bis 2024 erlebt hat, ist verständlicherweise skeptisch. Beeindruckende Demos, enttäuschende Ergebnisse. Texte generieren, Bilder erstellen, Fragen beantworten. Nützlich, aber kein Wettbewerbsvorteil — weil alle dieselben Werkzeuge hatten.

2025 hat sich das verändert. Und dieser Wandel ist der Grund, warum das Fenster für frühe Entscheider gerade jetzt offen ist.

Von der Antwortmaschine zum Denkpartner

Bis 2024 funktionierte KI nach einem Prinzip, das sich gut mit einem sehr schnellen, sehr belesenen Redakteur vergleichen lässt. Er kennt alle Muster, alle Formulierungen. Wenn Sie ihn bitten, eine Produktbeschreibung zu schreiben, liefert er etwas Professionelles. Er denkt dabei aber nicht über Ihr Produkt nach. Er reproduziert das Muster einer Produktbeschreibung.

Das nennt sich im Fachjargon Large Language Model (LLM): ein Modell der Sprache, nicht des Denkens. Es hat gelernt, welche Wörter in welchen Kontexten aufeinanderfolgen. Das ist für viele Aufgaben hervorragend geeignet. Für komplexe Analysen, Fehlerdiagnosen und mehrstufige Entscheidungen — nicht.

Reasoning-Modelle arbeiten anders. Sie zergliedern ein Problem in Schritte, prüfen Zwischenergebnisse, erkennen Widersprüche und korrigieren ihren Weg, bevor sie eine Antwort geben. Das Prinzip heißt Chain-of-Thought — Gedankenkette.

Ein konkretes Beispiel. Dieselbe Frage, zwei verschiedene Modelle:

„Prüfe diesen Quartalsabschluss auf Auffälligkeiten."

Klassisches LLM: „Die Zahlen sehen solide aus. Die Rohmarge liegt bei 34,2 Prozent." Korrekt. Nutzlos.

Reasoning-Modell: „In der Kostenposition 4.2 liegt eine Abweichung von 23 Prozent gegenüber dem Vorquartal vor, die durch die dokumentierten Produktionserhöhungen nicht erklärbar ist. In drei vergleichbaren Monaten der letzten zwei Jahre war diese Position stabil. Entweder gibt es eine Buchungsabweichung, oder die Kostenbasis hat sich strukturell verändert. Das sollte vor Abschluss geklärt werden."

Sie haben das System nicht um eine tiefere Analyse gebeten. Sie haben nach Auffälligkeiten gefragt. Das System hat die Frage ernst genommen. Es hat überlegt, verglichen, geschlussfolgert und Sie auf ein Problem hingewiesen, das Ihnen sonst erst aufgefallen wäre, wenn es zu spät ist.

Das ist kein Chatbot mehr. Das ist Reasoning.

Zahlen

Beim MATH-500-Benchmark, einem standardisierten Test für mathematische Problemlösung, lagen klassische LLMs bei rund 70 % korrekter Lösungen. Reasoning-Modelle (o3, GPT-5, Claude 3.7) erreichen 95 % und mehr. Beim GPQA-Benchmark, einem Expertentest in Naturwissenschaften auf Doktoranden-Niveau, übertrafen Reasoning-Modelle erstmals den Durchschnitt menschlicher Experten.

Merkmal	Klassisches LLM	Reasoning-Modell
Grundprinzip	Erkennt Muster, reproduziert das Häufigste	Plant Schritte, prüft Zwischenergebnisse
Stärke	Schnell, skalierbar für klare Aufgaben	Komplexe Analysen, mehrstufige Probleme
Fehlerverhalten	Gibt selbstsicher falsche Antwort	Erkennt eigene Unsicherheit, fragt nach
Einsatz	E-Mails, FAQ, Zusammenfassungen	Vertragsanalyse, Fehlerdiagnose, Strategieworkshops
Beispiele	GPT-3.5, frühe GPT-4-Versionen	o1, o3, GPT-5, Claude 3.7, DeepSeek-R1

Wichtig: Reasoning-Modelle sind langsamer und teurer als klassische LLMs — bei einfachen Aufgaben verschwendete Rechenleistung. Die Kunst liegt in der Aufgabenqualifikation. Wofür würde ein erfahrener Mitarbeiter mehrere Minuten nachdenken? Genau dort lohnt sich Reasoning.

Praxisbeispiel — Schreiber Maschinenbau GmbH, Chemnitz

Von 2–3 Wochen Dokumentation auf 3–4 Tage

Die Schreiber Maschinenbau GmbH (210 Mitarbeiter, Sondermaschinen für die Automobilindustrie) hatte ein konkretes Problem: Die Qualitätsdokumentation für jede Maschine — 100 bis 200 Seiten mit technischen Prüfberichten, Lieferantenzertifikaten und Abnahmeprotokollen — wurde vollständig manuell erstellt. Zwei erfahrene Techniker verbrachten jeweils 2–3 Wochen pro Maschine damit.

Mit einem Reasoning-System zur strukturierten Dokumentenanalyse: Durchlaufzeit auf 3–4 Tage gesenkt. Fehlerrate um 67 % reduziert. Das System liest Prüfberichte, erkennt fehlende Zertifikate und weist auf Widersprüche hin — Aufgaben, die bisher erfahrungsbasiertes Urteil erforderten.

IT-Leiter Frank Richter: „Wir haben keine KI-Abteilung. Wir haben einen Prozess genommen, der klar strukturiert ist, haben die Daten saubergemacht und dann das System darauf losgelassen. Das war das Geheimnis — nicht die Technologie."

Wenn KI handelt statt antwortet: Das Zeitalter der Agenten

Der Chatbot ist tot. Nicht weil er schlecht war, sondern weil er ersetzt wird. Die nächste Entwicklungsstufe der KI nennt sich KI-Agenten — und sie markieren einen fundamentaleren Wandel als den Sprung von GPT-3 auf GPT-4.

Ein Chatbot antwortet. Ein Agent handelt.

Konkret: Ein Agent öffnet Ihr CRM, schreibt E-Mails, löst Bestellungen aus, erstellt Berichte, bucht Termine — ohne dass ein Mensch jeden Schritt bestätigt. Er hat Werkzeuge (Datenbankzugriff, E-Mail, Kalender, ERP), ein Gedächtnis (was wurde zuletzt besprochen?) und einen Plan (wie zerlege ich diese Aufgabe in Teilschritte?).

Das macht Agenten mächtiger als Chatbots. Und gefährlicher. Denn während ein Chatbot maximal falsche Texte produzieren kann, kann ein Agent falsche Aktionen ausführen. Eine Bestellung, die nie hätte aufgegeben werden sollen. Eine E-Mail, die an den falschen Empfänger ging. Ein Datenbankfeld, das überschrieben wurde.

Welche Prozesse für Agenten geeignet sind — und welche nicht

Das ist die praktisch wichtigste Frage. Nicht alles, was sich automatisieren lässt, sollte automatisiert werden:

Eignung	Prozesstyp	Warum
Gut geeignet	Angebotsauswertung, Rechnungsprüfung, Berichterstellung, Terminplanung	Ergebnis ist objektiv prüfbar; Fehler bleiben reparierbar
Bedingt geeignet	Kundenkommunikation (mit Freigabe), Recherche (mit menschlicher Prüfung)	Agent als Zeitsparer, nicht als Entscheider
Nicht geeignet	Strategische Entscheidungen, emotionale Kundengespräche, Situationen mit unklaren Konsequenzen	KI hat keine Empathie, kein Kontextgefühl und keine Haftung

Der häufigste Fehler: Unternehmen automatisieren gleich den wichtigsten und komplexesten Prozess. Das scheitert fast immer. Der richtige Einstieg ist ein Prozess, der klar strukturiert ist, regelmäßig stattfindet und dessen Ergebnis jeder sofort beurteilen kann.

Die 3 Risiken, die Sie kennen müssen

1. Halluzinierte Aktionen sind teurer als halluzinierte Antworten. Ein Agent, der auf Basis falscher Schlussfolgerungen handelt, erzeugt realen wirtschaftlichen Schaden. Gegenmittel: Kritische Ausgaben prüfen, bevor sie Aktionen werden. Human-in-the-Loop ist kein Zeichen des Misstrauens — es ist notwendige Qualitätskontrolle.

2. Zu viele Berechtigungen erhöhen den Schaden. Jeder Agent bekommt nur die Berechtigungen, die er für seine spezifische Aufgabe braucht. Ein Angebotsassistent braucht keinen Schreibzugriff auf Bestellungen.

3. Hype-Projekte sterben in der Pilotphase. Der häufigste Fehler: ambitionierter Start, unklare Erfolgskriterien, keine Messung. Ein Pilot ohne Messung ist eine Demo, keine Entscheidungsgrundlage.

Für den europäischen Mittelstand hat sich dabei ein Tool als besonders geeignet erwiesen: n8n. Das Open-Source-Framework lässt sich datenschutzkonform (DSGVO-konform) im eigenen Rechenzentrum hosten, verbindet regelbasierte Automatisierung mit KI-Entscheidungen und ermöglicht einen visuellen Aufbau — ohne dass die IT-Abteilung jeden Schritt programmieren muss.

Der echte Engpass: Daten, nicht Modelle

Hier kommt die unbequeme Wahrheit, die in den meisten KI-Beratungsgesprächen ausgespart wird.

Die meisten Unternehmen scheitern nicht an der Technologie. Sie scheitern an ihren Daten.

Praxisbeispiel — Steinbrück Fördertechnik GmbH

3 von 6 Projektwochen: nur Datenbereinigung

Steinbrück Fördertechnik GmbH (95 Mitarbeiter) wollte einen KI-Agenten für die Angebotserstellung einführen. Das Projekt lief sechs Wochen. Drei davon entfielen ausschließlich auf die Bereinigung des Datenbankbestands — bevor auch nur ein Agent konfiguriert wurde.

Geschäftsführer Kai Steinbrück: „Der härteste Teil war nicht die Technologie, sondern die Erkenntnis, dass unsere Daten nicht sauber genug waren. Wir hatten Artikelnummern in drei verschiedenen Formaten, Kundenadressen mit Dubletten, Preislisten in vier verschiedenen Excel-Versionen. Das war keine KI-Frage. Das war eine Datenpflege-Frage."

Das Ergebnis nach vollständiger Umsetzung: Angebotsbearbeitungszeit von 4–6 Stunden auf unter 45 Minuten. Aber der Weg dorthin war länger als geplant — und realistisch.

Die Erkenntnis: Proprietäre Daten sind der unkopierbare Wettbewerbsvorteil. Nicht das Modell — das ist eine Commodity, die jeder kaufen kann. Aber Ihre Maschinendaten, Ihre Qualitätsberichte, Ihre Kundendaten, Ihre Prozessparameter — das kann kein Wettbewerber replizieren.

Ein Beispiel aus der Biomedizin zeigt das Prinzip in seiner extremsten Form: Vitalwerk GmbH (85 Mitarbeiter, Enzym-Entwicklung) nutzte ein KI-Modell, das auf eigenen Laborergebnissen trainiert wurde. Ergebnis: Entwicklungszeit von 30 auf 11 Monate gesenkt — mit Open-Source-Modellen, die jeder hätte nutzen können. Der Unterschied war nicht das Modell. Es waren die proprietären Daten.

Das ROI-Paradoxon: Was die 5 % wirklich anders machen

Kapitel 5 meines Buches ist das Herzstück. Es beantwortet die Frage, die jeder Geschäftsführer stellen sollte: Warum scheitern so viele — und was haben die Erfolgreichen gemeinsam?

Die Antwort lässt sich auf drei Entscheidungen herunterbrechen:

1. Sie messen KI-Wert, nicht KI-Aktivität

Die meisten Unternehmen messen: Wie viele Mitarbeiter nutzen das Tool? Wie viele Prompts wurden eingegeben? Wie viele Dokumente wurden zusammengefasst?

Die erfolgreichen 5 % messen: Wie hat sich die Durchlaufzeit von Angeboten verändert? Wie viele Fehler weniger in der Dokumentation? Wie viel Zeit spart der Vertrieb pro Monat?

KI-Aktivität ohne Wertmessung ist Marketing nach innen. Sie erzeugt das Gefühl, modern zu sein, ohne zu beweisen, dass die Investition sich lohnt.

2. Sie starten mit dem richtigen Problem

Die häufigste Fehlerentscheidung: Man sucht nach einem Problem, auf das KI passt. Die erfolgreichen Unternehmen drehen das um: Sie suchen nach ihrem teuersten, zeitaufwändigsten, fehleranfälligsten Prozess — und prüfen dann, ob KI helfen kann.

Das klingt trivial. Es ist es nicht. Der Unterschied ist, wer die Agenda setzt: die Technologie oder das Unternehmen.

3. Sie rechnen ehrlich

85.000 Euro für eine KI-Roadmap, zwei Jahre später keine messbaren Ergebnisse: Das ist kein Einzelfall, weil die Beratung schlecht war. Es ist ein Einzelfall, weil niemand am Anfang gefragt hat: Was muss dieses Projekt liefern, damit es sich gelohnt hat?

Ohne klares Erfolgskriterium vor dem Start ist jedes KI-Projekt eine Demo. Mit einem klaren Kriterium ist es eine Investition.

Kerngedanke

„KI-Erfolg ist keine Frage der Technologie. Es ist eine Frage der Entscheidung."
Die 5 %, die mit KI Geld verdienen, haben nicht mehr Budget, mehr Technik oder bessere Berater. Sie haben früher angefangen, ehrlicher gerechnet und konkreter entschieden.

Hardware ist geopolitisch — und betrifft Ihre Beschaffung

Ein Thema, das in den meisten KI-Büchern fehlt, aber direkten Einfluss auf Ihre Investitionsplanung hat: der globale Engpass bei KI-Rechenkapazität.

2025 warteten deutsche Unternehmen bis zu sechs Monate auf Nvidia-Rechenkapazität. Das ist kein temporäres Lieferproblem — es ist ein struktureller geopolitischer Faktor. Exportbeschränkungen, Produktionsengpässe, die Dominanz von drei bis vier Chip-Herstellern weltweit: Wer die Chips hat, hat die KI. Das hat direkte Konsequenzen für Ihre Entscheidung, ob Sie KI-Infrastruktur selbst betreiben oder über Cloud-Anbieter beziehen.

Und hier kommt der zweite geopolitische Faktor: der US CLOUD Act. Amerikanische Cloud-Dienste (AWS, Azure, Google Cloud) unterliegen US-Recht — was bedeutet, dass US-Behörden unter bestimmten Umständen Zugriff auf dort gespeicherte Daten verlangen können, auch wenn die Rechenzentren physisch in Europa stehen. Für Unternehmen mit sensiblen Kundendaten, Patenten oder kritischen Prozessdaten ist das ein juristisches Risiko, das bewertet werden muss.

„Made in Europe" ist 2026 kein Nachteil mehr — es ist zunehmend ein Verkaufsargument.

Der EU AI Act: Compliance als Wettbewerbsvorteil

Das weltweit erste umfassende KI-Gesetz ist seit 2024 in Kraft. Und die meisten Reaktionen folgen einem vertrauten Muster: Zuerst Panik, dann Verdrängung, dann hektische Compliance kurz vor dem Fristablauf.

Die erfolgreichen Unternehmen reagieren anders. Sie behandeln den EU AI Act nicht als Bürokratie, sondern als Differenzierungsmerkmal. Kunden, die wissen, dass Ihr KI-System konform nach EU-Standards entwickelt wurde, vertrauen Ihnen mehr als einem Wettbewerber, der das Thema ignoriert hat.

Das gilt besonders im B2B-Bereich, wo Einkaufsentscheidungen zunehmend Compliance-Kriterien umfassen — und wo ein zertifiziertes KI-System von einem potenziellen Kunden als Signal gewertet wird: Dieses Unternehmen nimmt KI ernst.

Für alle, die einen schnellen Überblick über die Risikoklassen, Fristen und Pflichten des EU AI Acts brauchen: Unser interaktives EU AI Act Dashboard gibt Ihnen in wenigen Minuten Klarheit — kostenlos.

Was Sie jetzt konkret tun können

Jedes Kapitel in Das KI Paradox endet mit Handlungsempfehlungen, die Sie am nächsten Tag umsetzen können. Hier ist ein erster Einstieg:

Einen Prozess identifizieren, der Ihnen am meisten Zeit kostet — nicht die interessanteste KI-Anwendung, sondern das größte Alltagsproblem. Dort beginnen.
Datenqualität ehrlich prüfen — bevor ein KI-Tool ausgewählt wird. Sind Ihre Daten sauber genug? Liegen sie strukturiert vor? Das entscheidet über Erfolg oder Misserfolg.
Ein klares Erfolgskriterium definieren — vor dem Start, nicht danach. Was muss sich in 90 Tagen geändert haben, damit das Projekt sich gelohnt hat?
Klein anfangen, schnell messen — kein 6-Monats-Pilot, sondern ein 4-Wochen-Experiment mit klarem Messrahmen. Wenn es funktioniert, skalieren. Wenn nicht, frühzeitig lernen.
Berechtigungen minimal halten — jedes KI-Tool bekommt nur Zugriff auf das, was es für seine spezifische Aufgabe braucht. Nicht mehr.
Human-in-the-Loop fest einplanen — bei jedem Prozess, der reale Konsequenzen hat (Bestellungen, Verträge, Kundenkommunikation), bleibt ein Mensch in der Freigabekette.
Daten als strategischen Asset behandeln — nicht das Modell ist Ihr Wettbewerbsvorteil, sondern Ihre eigenen, proprietären Daten. Wie systematisch erfassen und strukturieren Sie diese heute?
Den EU AI Act frühzeitig bewerten — welche Ihrer KI-Anwendungen fallen unter welche Risikoklasse? Das ist heute eine Frage, die einfach zu beantworten ist. In zwei Jahren wird es teurer.

Der Moment ist jetzt

Es gibt einen Unterschied zwischen „zu früh" und „rechtzeitig". Viele Unternehmen haben 2022 und 2023 zu früh auf KI gesetzt — bevor die Technologie bereit war — und haben Enttäuschungen erlebt, die verständliche Skepsis erzeugt haben.

2026 ist die Lage eine andere. Die Technologie ist reif genug für echten Produktionseinsatz. Die rechtlichen Rahmenbedingungen sind klar genug für belastbare Entscheidungen. Die wirtschaftliche Datenlage ist eindeutig genug, um seriöse Kosten-Nutzen-Kalkulationen aufzustellen.

Und die Unternehmen, die jetzt investieren, bauen einen Vorsprung auf, den Nachzügler in zwei Jahren nur schwer einholen werden. Nicht weil die Technologie dann nicht mehr verfügbar ist — sondern weil der entscheidende Faktor nicht die Technologie ist. Es ist das organisationale Wissen, das sich im Umgang mit ihr aufbaut.

Die 5 %, die mit KI Geld verdienen, haben nicht mehr Budget, nicht bessere Berater, keine exklusiven Technologien. Sie haben früher angefangen, ehrlicher gerechnet und konkreter entschieden.

Das können Sie auch.

Zum Buch

Das KI Paradox

Der umfassende Leitfaden zu KI in Wissenschaft, Wirtschaft und Praxis. 14 Kapitel, 4 Teile, sofort umsetzbare Checklisten — für Entscheider ohne IT-Hintergrund.

Mehr zum Buch →