KI-Prüfer für Texte - mit ehrlichen Grenzen und Stilometrie-Signal
Stilometrisches Signal für Texte: drei statistische Komponenten plus ehrliche Grenze. Kein Prozent-Score, kein KI-Urteil, keine Versprechen ohne Deckung.
Ein KI-Prüfer durchsucht Texte nach statistischen Spuren maschineller Schreibmuster. Auf dieser Seite siehst du drei Werte - Perplexity-Annäherung, n-Gramm-Gleichförmigkeit, Satzlängen-Varianz - plus ein kategoriales Label. Beweisen, dass ein bestimmter Text von einer KI stammt, lässt sich damit nicht. Kein öffentlich verfügbarer Detektor schafft das zuverlässig.
KI-Prüfer für Texte
Drei stilometrische Komponenten, ein Hinweis, niemals ein Urteil. Statt eines Prozent-Scores siehst du, wo der Text statistisch sitzt - und ein dauerhafter Hinweis, was dieses Signal nicht leisten kann.
Sobald du Text einfügst, erscheint hier das Signal.
Kann man KI-Texte zuverlässig erkennen?
Nein, nicht zuverlässig. Wissenschaftliche Studien seit 2023 zeigen ein klares Muster: bei unveränderten Texten aus bekannten Modellen können öffentliche Detektoren brauchbare Trefferquoten liefern. Sobald Texte paraphrasiert, leicht überarbeitet, mit eigenen Sätzen gemischt oder von einem ungewohnten Modell stammen, brechen die Werte ein - bis hinunter in Richtung Zufallsniveau (Sadasivan et al., 2023). Detektoren markieren außerdem systematisch Texte von Nicht-Muttersprachlern (gut dokumentiert für Englisch-Aufsätze) als KI - eine Verzerrung mit ernsten Folgen, wenn solche Werkzeuge in Notenvergabe einfließen.
Das Problem ist strukturell. Sprachmodelle sind explizit darauf trainiert, statistisch wahrscheinliche Wortfolgen zu produzieren, also genau das, was Menschen typischerweise schreiben würden. Wer einen KI-Output kurz überarbeitet oder eigene Sätze einstreut, verschiebt die statistische Signatur mit wenigen Eingriffen. Was übrig bleibt, sind Hinweise, kein Beweis.
Wie funktioniert dieser KI-Prüfer?
Du siehst drei Werte zu deinem Text: eine Perplexity-Annäherung (wie 'überraschend' die Buchstabenfolgen wirken im Vergleich zu natürlicher Prosa), die n-Gramm-Gleichförmigkeit (wie stark sich Wort-Paare wiederholen) und die Satzlängen-Varianz. Daraus folgt ein Label aus festem Vokabular, niemals ein Prozent-Score und niemals ein binäres Urteil.
Was die drei Komponenten messen:
- Perplexity-Annäherung. Ein einfaches Buchstaben-Trigramm-Modell vergleicht deinen Text mit einer kleinen Referenz-Verteilung aus natürlicher Prosa. Hoch = ungewöhnliche Kombinationen, eher typisch für Menschen. Niedrig = sehr vorhersehbar. Eine Annäherung, kein echtes LLM-Maß.
- n-Gramm-Gleichförmigkeit. Wir zählen Wort-Paare und sehen, wie oft sie sich wiederholen. Basis-KI-Output ohne Stil-Vorgabe neigt im Beobachten zu Wiederholungsmustern (
Es ist wichtig...,Zusammenfassend lässt sich sagen...), und das schlägt hier als Heuristik durch. - Satzlängen-Varianz. Die Standardabweichung der Satzlängen in Wörtern. Menschen schwanken stärker, uninstruierte Basis-Modelle im Standard-Register bleiben in einem engeren Band. Instruierte Modelle mit Stil-Vorgaben können das Bild verschieben.
Aus diesen drei Werten folgt das Label nach einer einfachen Regel. Das Ergebnis erscheint als einer von vier festen Sätzen, niemals als Prozent-Score:
- Zwei oder mehr Komponenten auf 0,40 oder darunter: KI-Muster (Volltext: "Enthält Muster, die häufig bei KI-Texten auftreten").
- Zwei oder mehr auf 0,60 oder darüber mit Mittelwert ab 0,50: menschliches Muster (Volltext: "Enthält Muster, die häufig bei menschlich geschriebenen Texten auftreten").
- Alle drei eng um 0,50: "Kein klares Signal".
- Sonst: "Gemischt".
Die Schwellenwerte sind heuristisch und stehen offen, damit du sie diskutieren kannst.
Wann liegt das Signal daneben?
Drei Gruppen können mit dieser Art Heuristik im KI-Muster-Bereich landen: Nicht-Muttersprachler, Texte in formellen Genres wie Jura, Technik oder Wissenschaft, und stark überarbeitete Drafts. Alle drei können Werte produzieren, die einem KI-Muster ähneln, ohne dass KI im Spiel war. Empirisch gut belegt ist nur die Verzerrung gegen Nicht-Muttersprachler (am stärksten dokumentiert für Englisch); die Risiken für formelle Genres und überarbeitete Drafts sind als Heuristik plausibel, aber nicht im selben Maß belegt.
| Gruppe | Warum das Signal danebenliegt |
|---|---|
| Nicht-Muttersprachler | Vereinfachte Syntax und kleineres Wortfeld ähneln Basis-Modell-Output |
| Formelle Genres (Jura, Technik, Wissenschaft) | Genre-Konventionen können die Satzlängen-Varianz drücken (Heuristik) |
| Stark überarbeitete Drafts | Mehrere Lektorats-Durchgänge können die statistische Signatur glätten (Heuristik) |
Forschung ab 2023 zeigte: gängige Detektoren markieren Aufsätze von Nicht-Muttersprachlern deutlich häufiger als KI-generiert als Texte von Muttersprachlern - die robusteste Evidenz stammt aus Studien mit englischen TOEFL-Aufsätzen (Liang et al., 2023). Wer ein Detektor-Signal als Beweis behandelt, baut systematisch eine Schieflage gegen Gruppen, die ohnehin schon unter höherem Misstrauen stehen.
Was sollten Lehrkräfte daraus machen?
Behandle das Signal als Gesprächsanlass, nie als Beweismittel. Zeigt das Label "KI-Muster", frag die Person nach ihrem Schreibprozess: mit welchen Quellen sie gearbeitet hat, wie lange sie an einer Stelle saß, was sie unterwegs verworfen hat. Wenn das Gespräch zeigt, dass die Person ihren Text verstanden hat, ist das Signal überstimmt - egal welche Komponente was anzeigt.
Drei Regeln halten das Werkzeug nützlich statt schädlich:
- Niemals auf Basis des Signals allein konfrontieren. Die Falsch-Positiv-Rate ist zu hoch für diese Tragweite einer Entscheidung.
- Schüler-Texte nicht durch eine Detektor-Vorprüfung als Teil der Bewertung schicken. Ein Tool, das Arbeiten als 'verdächtig' brandmarkt, verschiebt die Beweislast unfair.
- Den Hinweis vor jedem klassenweiten Einsatz laut aussprechen. Kein öffentlich verfügbarer Detektor erkennt KI-Texte zuverlässig. Trag das auch in Gespräche mit Lehrkräften, die anders überzeugt sind.
Häufige Fragen
Wie genau sind KI-Detektoren?
Genau genug für Werbeversprechen, nicht genau genug für Entscheidungen mit Folgen. Anbieter werben oft mit sehr hohen Trefferquoten, wissenschaftliche Studien finden unter realistischen Bedingungen Werte, die schon bei leichter Paraphrasierung deutlich einbrechen. Für Entscheidungen mit Folgen sollten mehrere unabhängige Methoden plus menschliche Prüfung zusammenkommen, nie ein einzelnes Werkzeug allein.
Was misst die Perplexity-Annäherung genau?
Sie zählt, wie 'überraschend' deine Buchstaben-Trigramme im Vergleich zu einer kleinen Referenz-Verteilung wirken. Vorhersehbare Folgen sind typisch für maschinelle Schreibmuster, ungewöhnliche eher für menschliche Texte. Die Annäherung ist absichtlich einfach gehalten, kein echtes LLM-basiertes Perplexity-Maß. Die Referenz-Verteilung besteht aus ein paar Absätzen natürlicher Prosa, mehr nicht.
Was tun, wenn das Signal 'KI-Muster' anzeigt?
Reden, nicht annehmen. Frage den Verfasser nach Quellen, Entwürfen und der Reihenfolge der Argumentation. Stimmt die Antwort, ist das Signal überstimmt. Falsch-positive Treffer sind vor allem für Nicht-Muttersprachler belegt; formelle Genres und stark überarbeitete Drafts sind plausible Risikofälle, in beiden Fällen richtet ein voreiliges Urteil großen Schaden an.