Wie monitore ich KI-Sichtbarkeit? Methodik aus über einem Jahr Praxis

Überblick

Citations werden in Tools gemessen und sie können Hinweise für die Strategie liefern. Aber wer sie als Ziel definiert, verschleudert seine Ressourcen.

Dieser Artikel beschreibt die fokussierte KI-Monitoring-Methodik von Sigrid Holzner: vier Antwort-Stufen, zwei Prompt-Typen, drei Engines, ein monatlicher Rhythmus. Als roten Faden nehme ich Walk-In-Glasduschen, eine Produktgruppe innerhalb der Glas-Nische. Klein genug, dass die Beispiele überschaubar bleiben, groß genug, dass alle Mechaniken sichtbar werden.

TL;DR

Sigrid Holzners Methodik für das Monitoring von KI-Sichtbarkeit: Eine KI-Antwort hat vier Stufen mit unterschiedlichem Wert: Empfehlungsliste, Produktkachel, Zitat im Text, Domain in der Sidebar. Die Stufen sind nicht gekoppelt. Die Methodik trennt Prompt-Sets nach Intent (Brand vs. Kauf) und trackt jede Engine (ChatGPT, Google AI Mode, Perplexity) separat. Pro Produktgruppe zehn bis fünfzehn Prompts, monatlich, kombiniert aus API-Calls (Gemini, OpenAI) und Frontend-Tests im Inkognito-Modus. Aufwand etwa neunzig Minuten pro Produktgruppe und Monat. Belegt durch die Semrush AI Visibility Index Study und Daten von Seer Interactive sowie Kevin Indig zum Ghost-Citation-Phänomen.

Vier Antwort-Stufen, vier verschiedene Werte

Wer eine KI-Antwort genau anschaut, sieht meist keine zwei Zustände (zitiert oder nicht), sondern bis zu vier Stufen, die sich in ihrem Geschäftswert deutlich unterscheiden. Die Layouts variieren, jede Engine spielt mal das eine, mal das andere Format aus, je nach Prompt und Kontext. Stand April 2026 sehen wir häufig folgendes Schema bei einer Kauf-Frage in ChatGPT:

Ein Begriff vorweg: ich nutze in diesem Artikel Mention synonym mit Erwähnung. Eine Mention ist die Nennung des Markennamens im Antworttext, ohne dass die Marke zwingend aktiv empfohlen wird. Eine Citation ist der Quellen-Link unter oder neben der Antwort. Eine Empfehlung ist die Marke in einer Empfehlungsliste, oft mit Produktkachel und Klick-Pfad zum Anbieter.

ChatGPT. Sidebar rechts zeigt die obersten Citation-Quellen direkt sichtbar. Was schraffiert ist, gibt es zwar in der Antwort, der Nutzer scrollt es aber selten. Tracking-Tools erfassen diese Quellen trotzdem als Citation. Wer nur Tool-Reports liest, überschätzt seine Sichtbarkeit.

Bei Google AI Overview und Google AI Mode sieht das Antwort-Layout deutlich anders aus, und auch hier gilt: das Layout variiert je nach Prompt. Die folgenden Mockups zeigen Varianten, die uns derzeit besonders häufig begegnen. Die Empfehlung ist da, die Citation-Logik aber jeweils eigen. Was schraffiert ist, ist auch hier vom Nutzer nicht direkt sichtbar.

Google AI Overview. Drei Quell-Cards rechts sichtbar, alle weiteren Citations hinter „Show all“ versteckt. Die klassischen SERP-Treffer darunter sind keine AI-Citations, werden aber von vielen Tracking-Tools mitgezählt und verzerren das Bild.

Google AI Mode. Drei Cards rechts sichtbar, „17 sites“ insgesamt, also vierzehn Citations hinter „Show all“ versteckt. Position 1 in der Empfehlungsliste ist die wirkungsstärkste Stelle (Primary Bias). Wer Position 4 hat, ist sichtbar, aber nicht primäre Empfehlung.

Wird mein Kunde empfohlen? Treffer. Wird eine andere Marke empfohlen, taucht sie meist überhaupt nicht als Quelle auf. Diese beiden Ebenen haben tatsächlich wenig Überschneidungen. Ich sehe mir die Citations an, um zu wissen: auf welchen Seiten muss mein Kunde auftauchen. Wer nur Citations trackt, erkennt nicht die wirkliche Sichtbarkeit. Wer nur Mentions trackt, übersieht den Mechanismus dahinter.

Brand-Prompts und Kauf-Prompts gehören in zwei verschiedene Sets

Citations sind in beiden Fällen Diagnose, woher das Modell seine Information zieht. Sie sind das wichtigste Werkzeug, um zu verstehen, woran man arbeiten muss. Der Unterschied liegt nur darin, wie leicht die Quellen beeinflussbar sind.

Bei Brand-Prompts, also wenn jemand explizit nach der Marke fragt, zitiert das Modell oft eigene Seiten der Marke. Diese Quellen sind direkt beeinflussbar. Hier zeigt Citation-Tracking, welche eigenen Inhalte tragen und wo Lücken sind.

Brand-Prompts (Beispiele Walk-In-Glasdusche-Shop)

Welche Erfahrungen gibt es mit [Marke] bei Walk-In-Duschen?
Wie ist die Beratungsqualität bei [Marke]?
Was kostet eine Walk-In-Dusche bei [Marke] im Vergleich zu Wettbewerbern?
Wie zuverlässig liefert [Marke] in Deutschland und Österreich?

Bei Kauf-Prompts, also wenn jemand eine Lösung ohne Marken-Vorgabe sucht, zitiert das Modell meist externe Plattformen: Foren, Magazine, Bewertungs-Plattformen, Wikipedia. Diese Quellen sind nicht direkt beeinflussbar, aber sie sind diagnostisch wertvoll. Wenn ChatGPT bei einer Kauf-Frage Reddit zitiert, hat Reddit selbst nichts davon, aber die Marke weiß jetzt, wo sie präsent sein muss, damit ihre Empfehlung in der Antwort ankommt.

Kauf-Prompts (Beispiele Walk-In-Glasdusche-Shop)

Wo bekomme ich eine Walk-In-Duschabtrennung nach Maß?
Welcher Online-Shop liefert Walk-In-Duschen mit Konfigurator?
Beste Anbieter für Walk-In-Duschen aus Glas im DACH-Raum
Wo kaufe ich eine bodengleiche Glasdusche für Neubau?
Walk-In-Dusche für Dachschräge mit Beratung

Bei einem Walk-In-Glasdusche-Shop entfallen typischerweise rund zwei Drittel der Prompts auf Kauf-Intent und ein Drittel auf Brand-Intent. Für reine B2B-Marken ist das Verhältnis oft umgekehrt, weil dort mehr Reputations-Recherche stattfindet.

Beide Tracking-Ebenen brauchen unterschiedliche Maßnahmen.

Bei Brand-Prompts sind Onpage-Optimierung und eigene Content-Lücken die Hebel. Bei Kauf-Prompts sind die Hebel die Plattformen, auf denen das Modell seine Antworten begründet: Reviews-Plattformen, Foren, Branchenmedien, Wikipedia. Aggregat-Metriken über beide Prompt-Typen verschleiern, an welcher Stellschraube man drehen muss.

Drei Engines, separat tracken

ChatGPT, Google AI Mode und Perplexity sind die drei Engines mit der größten Reichweite und Diskursrelevanz. Jede Engine zieht aus anderen Quellen und produziert andere Antwortformate. Eine Aggregat-Metrik über alle Engines verschleiert genau die Unterschiede, die für die Optimierung den Ausschlag geben.

Engine	Charakteristikum und was für das Monitoring relevant ist
`ChatGPT`	Antwort mit Empfehlungsliste, oft Produktkacheln, Quellen-Sidebar oder Quellen-Strip am Ende. Vier Stufen am deutlichsten ausgeprägt. Wichtigste Engine für das Vier-Stufen-Modell. Im Inkognito-Modus tracken, ohne Login.
`Google AI Mode`	Konversationelle Antwort mit eingebetteten Citations und gestapelten Quell-Cards rechts, oft kombiniert mit klassischen SERP-Elementen darunter. Quellen sind direkter im Text verankert. Brand Mentions wirken anders als bei ChatGPT, oft stärker. Eigenes Tracking, weil die Antworten domain-fokussierter ausfallen.
`Perplexity`	Quellen-fokussiertes Antwortformat mit nummerierten Citations direkt am Satz. Citation-Logik am stärksten ausgeprägt, Mentions sind seltener. Hier zeigt sich, ob die Marke als Quelle zitiert wird, eher selten als empfohlen.

Bing Copilot kann zusätzlich relevant sein, wenn die Marke im B2B- oder Microsoft-Ökosystem stark ist. Gemini ist konzeptionell ähnlich wie Google AI Mode, aber eigenständig getrackt sinnvoll, wenn die Marke gezielt in Workspace-Kontexten sichtbar werden soll.

API und Frontend gleichzeitig: zwei Blickwinkel, ein Bild

Eine Methodik, die nur das eine misst, übersieht das andere. Deshalb laufen in meinem Setup zwei Schichten parallel:

API-Calls für das systematische Tracking. Über die Gemini API und die OpenAI API teste ich Prompt-Sets in Batches. Das liefert reproduzierbare Datensätze, eine vollständige Liste aller Citations (auch der versteckten), und bei Gemini zusätzlich die Fan-Out-Queries: Folge-Suchen, die das Modell intern aus dem ursprünglichen Prompt generiert. Wer die Fan-Out-Queries nicht kennt, übersieht ein Drittel bis die Hälfte der Quellen, aus denen die finale Antwort gespeist wird.

Frontend-Tests im Inkognito-Browser für das Sichtbarkeits-Bild. Dieselben Prompts werden in ChatGPT, Google AI Mode und AI Overview manuell ausgeführt. Hier sehe ich was die API nicht zeigt: Position der Marke in der Empfehlungsliste, ob eine Produktkachel mit Klick-Button ausgespielt wird, welche Quell-Cards initial sichtbar sind und welche hinter Show-all liegen, wie Tonalität und Reihenfolge in der Antwort wirken.

Die Differenz aus beiden Schichten ist die eigentliche Erkenntnis.

Wenn die API zehn Citations liefert und im Frontend nur drei sichtbar sind, ist das ein Sichtbarkeits-Verlust, den klassische Tools nicht zeigen. Wenn die API meine Marke nicht zitiert, das Frontend sie aber prominent in der Empfehlungsliste nennt, dann ist die Mention nicht aus den verlinkten Quellen entstanden, sondern aus dem parametrischen Wissen des Modells. Das ändert die Maßnahme komplett.

Ein Hinweis zur Position 1 in Empfehlungslisten: LLMs reproduzieren in Listen häufig dieselbe erstgenannte Marke, wenn der gleiche Prompt mehrfach beantwortet wird. Dan Petrovic hat den Effekt als Primary Bias benannt, Profound hat ihn quantifiziert, Kevin Indig fasst beide Quellen in seinen Reviews zusammen. Für das Monitoring heißt das: Position 1 ist nicht nur ein Ranking-Punkt, sondern ein selbstverstärkender Effekt. Wer Position 1 ist, bleibt es tendenziell auch beim nächsten Aufruf.

Excel-Struktur für das monatliche Monitoring

Für das Tracking nutze ich ein Excel pro Produktgruppe, mit einem Tab pro Engine. Pro Engine eine Zeile pro Prompt, pro Prompt vier Spalten für die vier Antwort-Stufen, plus Metadaten. Die Spaltenstruktur:

Spalte	Inhalt
`Datum`	Monat des Tests, für die Trend-Auswertung über mehrere Monate.
`Prompt`	Der wortgleiche Prompt aus dem Set, jedes Mal exakt gleich, sonst bricht die Reproduzierbarkeit.
`Intent`	Brand oder Kauf, damit beide Prompt-Typen getrennt ausgewertet werden können.
`Empfehlung`	Wird die Marke in der Empfehlungsliste genannt? Wenn ja, an Position 1, 2, 3 oder weiter hinten? Ebene 1, höchster Geschäftswert.
`Produktkachel`	Erscheint die Marke in einer klickbaren Produktkachel mit Preis und Link? Ja oder nein. Ebene 2, direkter Kauf-Pfad.
`Zitat`	Wird die Marke als Zitat-Quelle im Antworttext genannt? Ja oder nein, plus URL. Ebene 3, Reputation.
`Quellen`	Liste aller Domain-Chips in der Sidebar oder im Quellen-Strip. Ebene 4, externe Quellen-Landkarte.
`Notiz`	Auffälligkeiten zur qualitativen Einordnung: Tonalität, Konkurrenz-Erwähnungen, Antwortlänge, neue Quellen.

Wichtig: Antworten variieren von Test zu Test. Eine einzelne Messung ist eine Beobachtung, kein Befund. Aussagefähig wird das Monitoring erst über mehrere Monate hinweg, wenn sich Muster verfestigen.

Auswertungs-Logik: was die Daten zeigen

Bei einem Walk-In-Glasdusche-Shop könnte sich nach drei Monaten folgendes Bild ergeben (alle Beispiele zur Illustration):

Bei Brand-Prompts: ChatGPT zitiert in zwei Drittel der Fälle die eigene Über-uns-Seite und die Versandbedingungen. Die Produktdetailseiten tauchen seltener auf. Analyse: Die Versandbedingungen sind offenbar gut auffindbar und werden als verlässliche Info-Quelle genutzt. Die Produktdetails dagegen werden umgangen, weil sie für KI-Modelle nicht klar genug strukturiert sind. Maßnahme: Produktdetailseiten klarer strukturieren, Kernfakten im ersten Drittel der Seite platzieren, Schema.org-Markup prüfen.

Bei Kauf-Prompts: ChatGPT zitiert häufig ein Bad-Magazin und ein Heimwerker-Forum, der Shop selbst taucht in der Sidebar auf, wird aber nie in der Empfehlungsliste genannt. Analyse: Die eigenen Seiten sind als Quelle akzeptiert (Ebene 4), aber der Shop hat in den externen Plattformen, auf die ChatGPT zurückgreift, keine prominente Empfehlung. Welche Plattformen das genau sind, zeigt die Citation-Liste pro Prompt. Maßnahme: Präsenz in den zitierten Magazinen aufbauen, Diskussionen in den genutzten Foren mitsteuern, Einträge in Branchenverzeichnissen pflegen, Trustpilot-Profil mit aktiven Bewertungen.

Bei Google AI Mode: Die Marke wird häufiger im Antworttext genannt als bei ChatGPT, aber ohne Produktkachel und ohne klickbare Empfehlung. Die Citation-Quellen sind stärker auf Plattformen mit strukturierten Produktdaten und Bewertungen verteilt: Amazon, YouTube, Branchenverzeichnisse. Analyse: Google AI Mode zieht stark aus Plattformen, wo Produkte mit konsistenten Attributen und Bewertungen hinterlegt sind. Maßnahme: Strukturierte Produktinfos auf Amazon pflegen (vollständige Attribute, Bewertungen aktiv einsammeln), eigene YouTube-Präsenz mit Anwendungs- und Erklärvideos aufbauen, Einträge in autoritären Branchenverzeichnissen aktualisieren.

Aus dem Vergleich entsteht die Strategie.

Wenn ChatGPT über externe Plattformen entscheidet, muss man dort präsent sein. Wenn Google AI Mode strukturierte Produktdaten und Bewertungen heranzieht, sind Amazon-Listings und YouTube-Präsenz die Hebel. Wenn Perplexity Citations vergibt, ohne Mentions, lohnt sich der Kampf um die Mention nicht in dieser Engine. Drei Engines, drei verschiedene Schwerpunkte.

Sigrid Holzner führt das Vier-Stufen-Monitoring als festen Bestandteil ihrer GEO-Audits.

Was die Daten der großen Studien dazu sagen

Belegt ist das Phänomen inzwischen auch quantitativ. Seer Interactive hat den Begriff Ghost Citation im Februar 2026 geprägt, nach einer Analyse von 541.213 LLM-Antworten über 20 Marken. Kevin Indig hat den Begriff am 20. April 2026 im Growth Memo aufgegriffen und an Semrush-Daten quantifiziert: über 60 Prozent aller Citations sind genau das, Domain verlinkt, Marke nicht genannt. Eine eigenständige Untersuchung von Semrush, der AI Visibility Index Study mit 2.500 Prompts über fünf Industries, ergänzt: weniger als eine von fünf Marken ist sowohl konsistent zitiert als auch häufig im Antworttext genannt. Semrush nennt das die Mention-Source Divide.

Beide Befunde bestätigen, was im praktischen Audit ohnehin zu sehen ist: die zwei Stufen entkoppeln sich. Die Konsequenz fürs Monitoring ist klar: nur Citations zu zählen, ist Bluelinks-Denken im neuen Format.

Aufwand und Routine

Pro Produktgruppe und Monat liegt der Aufwand bei etwa neunzig Minuten:

10 bis 15 Prompts pro Produktgruppe, getrennt nach Brand- und Kauf-Intent.
Pro Engine separat: ChatGPT, Google AI Mode, Perplexity. Im Inkognito-Modus, ohne Login, um Personalisierung auszuschließen.
Pro Prompt vier Stufen abklopfen: Empfehlung, Produktkachel, Zitat, Domain-Chip.
Notizen zu Auffälligkeiten machen: Tonalität, Konkurrenz-Nennungen, Antwortlänge, neue Quellen.
Monatlich wiederholen, immer am gleichen Tag, mit identischen Prompts.

Nach drei bis sechs Monaten zeigen sich Trends. Vorher sind alle Beobachtungen Einzelmessungen. Wer einmalig misst, hat einen Status, kein Monitoring.

Was die Methodik nicht leistet

Das hier ist kein vollautomatischer Prozess. API-Calls liefern die systematische Datengrundlage, die Frontend-Prüfung im Browser bleibt aber unverzichtbar, weil Sidebar-Cards, Produktkacheln und die tatsächliche Sichtbarkeit der Citations für den Nutzer von API-Antworten nicht abgebildet werden. Wer ausschließlich auf API-basierte Tools wie Semrush, Ahrefs oder ProfoundAI setzt, sieht die quantitative Hälfte des Bildes. Die qualitative Hälfte (Position, Layout, Klick-Pfade, was der Nutzer wirklich wahrnimmt) bleibt offen, bis jemand die Antwort im Browser anschaut.

Die Methodik ist auch nicht datentief. Sie liefert qualitative Muster, keine statistische Signifikanz. Für eine fokussierte Steuerung der eigenen GEO-Strategie reicht das in der Regel aus. Für enterprise-weite Benchmark-Reports braucht es zusätzliche Datenquellen.

Wenn Sie eigene Erfahrungen mit KI-Sichtbarkeits-Monitoring haben, bin ich neugierig.

Häufige Fragen

Was ist der Unterschied zwischen Citation, Mention und Empfehlung?

Eine Citation ist ein Quellen-Link unter oder neben der Antwort. Die Domain wird verlinkt, die Marke ist aber im Antworttext nicht zwingend genannt. Eine Mention ist die Nennung des Markennamens im Antworttext, ohne dass die Marke aktiv empfohlen wird. Eine Empfehlung ist die Marke in einer Empfehlungsliste, oft mit Produktkachel, Preis und Klick zum Anbieter. Drei Stufen, die im Geld-Wert auseinanderklaffen. Eine Domain kann zitiert sein, ohne genannt zu werden. Eine Marke kann genannt sein, ohne empfohlen zu werden.

Warum sollte man Brand-Prompts und Kauf-Prompts getrennt tracken?

Weil sie unterschiedliche Maßnahmen auslösen. Bei Brand-Prompts (jemand fragt nach der Marke) zitiert das Modell oft eigene Seiten der Marke. Diese Quellen sind direkt beeinflussbar. Citation-Tracking zeigt hier, welche eigenen Inhalte tragen und wo Lücken sind. Bei Kauf-Prompts (jemand sucht eine Lösung) zitiert das Modell meist externe Plattformen wie Reddit, Trustpilot oder Branchenforen. Hier zählt für das Geschäft die Empfehlung der Marke, nicht die Citation. Wer beides in einen Topf wirft, sieht weder das eine noch das andere.

Welche KI-Engines sollte man für ein KI-Sichtbarkeits-Monitoring tracken?

ChatGPT, Google AI Mode und Perplexity sind die drei Engines mit der größten Reichweite und Diskursrelevanz im B2C- und B2B-Bereich. Jede Engine zieht aus anderen Quellen und produziert andere Antwortformate. Eine Aggregat-Metrik über alle Engines verschleiert diese Unterschiede. Das Monitoring sollte deshalb pro Engine separat geführt werden. Bing Copilot kann zusätzlich relevant sein, wenn die Marke im B2B- oder Microsoft-Ökosystem stark ist. Gemini ist konzeptionell ähnlich wie Google AI Mode, aber eigenständig getrackt sinnvoll, wenn die Marke gezielt in Workspace-Kontexten sichtbar werden soll.

Wie viele Prompts braucht ein sinnvolles KI-Monitoring pro Produktgruppe?

Zehn bis fünfzehn Prompts pro Produktgruppe sind in der Praxis ein guter Mittelweg. Genug, um Muster zu erkennen, wenig genug, um die monatliche Routine in einem überschaubaren Zeitfenster zu halten. Davon entfallen typischerweise etwa zwei Drittel auf Kauf-Prompts (Customer Journey, Vergleich, Empfehlung) und ein Drittel auf Brand-Prompts (Erfahrungen, Bewertung, Reputation). Die Prompts sollten Produktgruppe-spezifisch formuliert sein, nicht nur generisch.

Wie oft sollte man KI-Sichtbarkeit messen?

Monatlich ist der gängige Rhythmus. KI-Antworten sind variabel, aber nicht so volatil, dass tägliches Tracking Mehrwert liefern würde. Monatlich liefert genug Datenpunkte, um Trends zu erkennen, ohne dass die Routine zur Belastung wird. Bei größeren Optimierungsmaßnahmen lohnt sich ein Vorher-Nachher-Vergleich nach vier bis acht Wochen, weil viele KI-Engines neue Inhalte erst nach diesem Zeitraum konsistent berücksichtigen.

Sigrid Holzner

SEO-Strategin seit 2010, spezialisiert auf Generative Engine Optimization (GEO). Sigrid Holzner analysiert, wie KI-Systeme wie ChatGPT, Microsoft Copilot und Google AI Mode über Unternehmen sprechen, und entwickelt Strategien für gezielte KI-Sichtbarkeit und nachhaltige Empfehlungen. Strategische Beratung über die Visua Agency OÜ.

Wie monitore ich KI-Sichtbarkeit? Warum Citations eine Sackgasse sind.