Generische KI-Assistenten wie die kostenlosen Versionen verbreiteter Chatbots sind beeindruckend: Sie formulieren flüssig, klingen sicher und liefern Texte, die professionell aussehen. Kein Wunder, dass viele Unternehmen sie auch für rechtliche Fragen einsetzen — von der ersten Einschätzung eines Sachverhalts bis zum Entwurf eines Schreibens.
Doch genau hier liegt ein Risiko, das auf den ersten Blick unsichtbar bleibt. Ein rechtlicher Text einer freien KI sieht aus wie Recht. Ob er auch korrekt ist, lässt sich der Optik nicht ansehen. Dieser Artikel erklärt, warum das so ist, was die Forschung dazu sagt — und worauf es bei KI-gestützter Rechtsarbeit wirklich ankommt.
Warum freie KI im Rechtskontext systematisch danebenliegt
Das Problem ist keine Frage der Bedienung, sondern der Bauart. Generische KI-Assistenten erzeugen Text statistisch: Wort für Wort wird das jeweils wahrscheinlichste nächste Element gewählt. Reichen die zugrunde liegenden Daten für eine konkrete Rechtsfrage nicht aus, entsteht trotzdem ein Text — die KI „erfindet" dann Aktenzeichen, Gerichte, Urteile und Fundstellen, die es nie gegeben hat. Dieses Verhalten nennt man Halluzination.
Erschwerend kommt hinzu, dass einfache oder ältere Modelle, wie sie in kostenlosen Versionen verbreitet sind, einen festen Wissensstand zum Trainingszeitpunkt haben. Sie greifen nicht auf eine geprüfte Rechtsdatenbank zu und können eigene Aussagen nicht gegen eine verlässliche Quelle abgleichen. Vor allem aber unterscheiden sie nicht zwischen „das ist gesichert" und „das klingt plausibel" — und kommunizieren beides mit derselben Selbstsicherheit.
Was die Forschung zeigt
Die Zuverlässigkeitslücke ist wissenschaftlich gut dokumentiert. Eine vielbeachtete Untersuchung der Stanford University („Large Legal Fictions", veröffentlicht Anfang 2024) prüfte verbreitete generische KI-Modelle anhand verifizierbarer juristischer Fragen. Das Ergebnis: Bei konkreten Rechtsfragen lag die Halluzinationsrate je nach Modell zwischen 58 und 88 Prozent. Fehlerhafte Rechtsaussagen waren also nicht die Ausnahme, sondern die Regel — und besonders ausgeprägt bei komplexeren Fragestellungen.
Dass dies kein theoretisches Problem ist, zeigt eine öffentlich geführte Sammlung dokumentierter Gerichtsfälle, in denen KI-Halluzinationen aufgedeckt wurden. Sie umfasst inzwischen weit über tausend Fälle weltweit, mit stark steigender Tendenz. Da viele Halluzinationen unentdeckt bleiben oder nicht in Gerichtsentscheidungen vermerkt werden, dürfte die tatsächliche Zahl deutlich höher liegen.
Auch deutsche Gerichte haben sich bereits mit dem Thema befasst. In mehreren Verfahren enthielten anwaltliche Schriftsätze Rechtsprechungsnachweise und Literaturfundstellen, die sich als frei erfunden herausstellten — die zitierten Entscheidungen ließen sich in keiner gängigen juristischen Datenbank auffinden. Die betroffenen Schriftsätze lasen sich elegant und wirkten überzeugend. Der Inhalt war es nicht.
Der wohl bekannteste Auslöser der Debatte war ein Verfahren vor einem New Yorker Gericht: Ein erfahrener Anwalt stützte einen Schriftsatz auf mehrere frühere Entscheidungen — sechs davon existierten nicht. Ein generischer KI-Assistent hatte Aktenzeichen und Urteilstexte erfunden und auf Nachfrage sogar ausdrücklich versichert, die Fälle seien echt.
Die Lehre daraus ist nicht, dass freie KI eine offensichtlich falsche Antwort gibt. Die Lehre ist, dass sie eine falsche Antwort gibt, die nicht als falsch erkennbar ist — weil sie professionell aussieht. Selbst berufserfahrene Juristen sind darauf hereingefallen.
Worauf es bei KI-gestützter Rechtsarbeit ankommt
Freie KI-Assistenten sind für viele Aufgaben ein nützliches Werkzeug — für Textentwürfe, Zusammenfassungen oder das Sammeln erster Ideen. Für verlässliche Rechtsergebnisse sind sie jedoch nicht gebaut. Der Unterschied liegt nicht im Modell allein, sondern in dem, was es umgibt:
Eine verifizierte Quelle statt statistischer Vermutung. Entscheidend ist, ob eine KI ihre Aussagen aus einer geprüften Datenbank deutscher Gesetze und Rechtsprechung ableitet — oder sie statistisch aus Trainingsdaten zusammensetzt.
Ein Abgleich jedes Zitats. Eine Quellenangabe ist nur dann etwas wert, wenn sie gegen eine echte Urteilsdatenbank geprüft wird. Nicht verifizierbare Zitate müssen erkennbar markiert oder blockiert werden, statt unkommentiert im Text zu stehen.
Datenschutz vor der Verarbeitung. Rechtliche Sachverhalte enthalten regelmäßig personenbezogene Daten. Diese sollten eine KI gar nicht erst erreichen — sondern vor jeder Verarbeitung pseudonymisiert werden.
Der Mensch als Kontrollinstanz. KI-Ergebnisse sind Entwürfe, keine fertigen Resultate. Eine verpflichtende fachliche Prüfung muss fester Bestandteil des Arbeitsablaufs sein, nicht eine optionale Zusatzleistung.
Der Ansatz von CEAVEO LEGALinhouse
CEAVEO LEGALinhouse ist ein Arbeitswerkzeug für interne Rechtsabteilungen, das genau auf diese Anforderungen ausgelegt ist. Die KI-gestützte Rechtsrecherche läuft über einen juristischen Knowledge Graph mit rund 94.000 Gesetzesnormen, 81.000 Gerichtsurteilen und 432.000 Norm-Zitaten. Jede KI-generierte Quellenangabe wird gegen die Urteilsdatenbank geprüft; nicht verifizierte Zitate werden blockiert oder gekennzeichnet. Vor jedem KI-Aufruf werden personenbezogene Daten durch eine Pseudonymisierungs-Pipeline ersetzt, und die Verarbeitung erfolgt ausschließlich in der EU. Spezialisierte Assistenten für die einzelnen deutschen Rechtsgebiete sorgen dafür, dass eine Anfrage im jeweils passenden fachlichen Kontext bearbeitet wird.
So entsteht ein geprüfter Entwurf — kein professionell aussehendes Risiko.
Quellen
- Stanford-Untersuchung: Dahl/Magesh/Suzgun/Ho, „Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models", Stanford RegLab und Institute for Human-Centered AI, Preprint Januar 2024; begutachtete Fassung in: Journal of Legal Analysis, 2024, Band 16, Seiten 64–93.
- Sammlung dokumentierter Gerichtsfälle: AI Hallucination Cases Database, geführt von Damien Charlotin (damiencharlotin.com/hallucinations).
- Deutsche Gerichtsentscheidungen: AG Köln, Beschluss vom 02.07.2025 (Az. 312 F 130/25); OLG Celle, Beschluss vom 29.04.2025 (Az. 5 U 1/25); LG Frankfurt (Az. 2-13 S 56/24).
- New Yorker Verfahren: Mata v. Avianca, US District Court Southern District of New York, 2023.
Informationsartikel von CEAVEO · Stand: Mai 2026