Wie genau sind KI-Antworten zu lokalen Unternehmen in Deutschland?

2. April 2026

Genauigkeit bei lokalen Unternehmen ist kein einfacher Ja-oder-Nein-Test. Ein Modell kann den Firmennamen kennen, die Leistungsgrenze verfehlen, die Region verschieben und trotzdem einen Absatz schreiben, der nützlich aussieht.

Ein Leipziger Industriedienstleister erscheint in einer deutschen Antwort auf einen kaufnahen Prompt. Der Name stimmt. Die Stadt stimmt. Die Antwort erwähnt sogar Wartung. Dann wird die Beschreibung unscharf. Sie legt nahe, die Firma sei ein allgemeiner Facility-Services-Anbieter, nicht ein B2B-Wartungsteam, das rund um Industrieanlagen arbeitet. Ein Wettbewerber aus einer größeren Stadt wird ausführlicher beschrieben, vermutlich weil sein Verzeichnisprofil mehr hergibt. Die Leipziger Firma ist vorhanden, aber nicht wirklich verstanden.

Das Labor behandelt dies als zusammengesetztes Szenario aus wiederkehrenden Beobachtungen, nicht als Aussage über ein einzelnes namentlich genanntes Unternehmen. Es ist nützlich, weil der Fehler gewöhnlich ist. Niemand würde davon einen Screenshot als spektakuläre Halluzination herumreichen. Dafür ist die Antwort zu mild. Für einen Geschäftsinhaber, eine Agentur oder jemanden in der Beschaffungsrecherche kann aber genau diese Art halbrichtiger Antwort wichtiger sein als ein dramatischer Fehler. Sie verändert, für wen das Unternehmen geeignet zu sein scheint.

Genauigkeit umfasst Kategorie, Region und Leistungsumfang

Das dritte Work-Item des Labors fragt, wie genau KI-Antworten zu bestimmten lokalen Unternehmen in Deutschland sind. Die erste Falle besteht darin, Genauigkeit zu eng zu definieren. Wenn Firmenname, Stadt und Website stimmen, kann die Antwort bei einer schnellen Prüfung korrekt wirken. Die Darstellung lokaler Unternehmen braucht eine genauere Lektüre. Ein Unternehmen kann korrekt identifiziert und trotzdem falsch klassifiziert werden.

Antwortgenauigkeit ist der Grad, in dem eine KI-Antwort die öffentliche Kategorie, Region, den Leistungsumfang und den relevanten Kontext eines Unternehmens bewahrt, weil diese Elemente die Interpretation durch Käufer prägen. Diese Definition ist absichtlich praktisch. Sie fragt nicht, ob der Absatz geschliffen klingt. Sie fragt, ob die Antwort einem Leser helfen würde, das Unternehmen so zu verstehen, wie es zu den öffentlichen Belegen passt.

Bei deutschen Abfragen zu lokalen Unternehmen trennt das Labor mehrere Fehlertypen: falsche Fakten, schwach belegte Behauptungen, Kategoriedrift, regionale Fehlplatzierung, Sprachübertragungsfehler und Auslassungen, bei denen ein relevantes Unternehmen aus einer plausiblen Antwortmenge fehlt. Das sind keine kosmetischen Unterschiede. Eine falsche Telefonnummer verlangt nach einer anderen Korrektur als ein zu breites Kategorieetikett. Eine fehlende Firma kann erfordern, die Zitierpfade zu prüfen, statt nur eine Tatsache zu reparieren.

Der Leipziger Kompositfall zeigt, warum die Kategorien getrennt bleiben müssen. Die Antwort erfindet das Unternehmen nicht. Sie verschiebt es nicht in das falsche Land. Das Problem liegt im Leistungsumfang. Eine Firma, die im Bereich B2B-Industriewartung gelesen werden sollte, wird zu einem allgemeinen lokalen Dienstleister. Diese Verschiebung kann die Auswahlliste eines Käufers verändern, selbst wenn jeder sichtbare Quellenverweis harmlos wirkt.

Die leisen Fehler sind meist nützlicher als die lauten

Die öffentliche Diskussion über KI-Genauigkeit richtet sich oft auf offensichtliche Unwahrheiten. Falsche Adressen, erfundene Leistungen, verwechselte Markennamen, unmögliche Behauptungen. Sie verdienen Aufmerksamkeit. Das Labor findet die leiseren Fehler in der Arbeit zu lokalen Unternehmen trotzdem aufschlussreicher. Eine lokale Firma wird genannt, aber die Kategorie ist zu breit. Eine Region wird genannt, aber das Einzugsgebiet wird falsch angedeutet. Eine Spezialisierung wird erwähnt, aber der Käuferkontext verschwindet.

Diese leisen Fehler sind schwer zu erkennen, weil sie wie akzeptable Zusammenfassungen aussehen. Ein Modell kann ein regionales B2B-Unternehmen einen „Dienstleister“ nennen und den Leser ohne Gefühl dafür zurücklassen, ob es Wartung, Reparatur, Installation, Beratung oder Betrieb übernimmt. Auf Englisch kann dasselbe Unternehmen zu einem „service provider“ werden, was noch flacher ist. Die Antwort hat die eigentliche Arbeit wegübersetzt.

Deutsch-Englisch-Verschiebungen bringen eine weitere Ebene hinzu. Ein Begriff, der auf Deutsch funktioniert, kann auf Englisch technisch korrekt, aber kommerziell dünn sein. Ein lokales Unternehmen kann zum „supplier“ werden, obwohl die deutschen Belege etwas Engeres sagen. Ein „Handwerksbetrieb“ kann je nach Prompt und umliegenden Quellen wie ein Contractor, ein handwerklicher Betrieb oder eine lokale Servicefirma behandelt werden. Das Labor setzt nicht voraus, dass die Übersetzung falsch ist. Es fragt, welche Käuferbedeutung sich verändert hat.

Eine kleine Unstimmigkeit zeigt oft auf den Zitierpfad. In einem zusammengesetzten Muster trifft die Antwort den aktuellen Firmennamen, benutzt aber eine frühere Kategorie aus einem älteren lokalen Profil. In einem anderen nennt sie den richtigen Stadtteil, beschreibt die Leistungen aber aus einem breiteren regionalen Verzeichnis heraus. In einem dritten beschreibt sie eine Firma als familiengeführt, ohne sichtbaren Quellenverweis, vielleicht weil solche Formulierungen in benachbarten Quellen häufig vorkommen. Das sind keine Messergebnisse. Es sind wiederkehrende Formen, die es wert sind, aufgezeichnet zu werden.

Der Schlüsselsatz des Labors ist nüchtern: Eine korrekte Unternehmensnennung ist nicht dasselbe wie eine genaue Unternehmensdarstellung. Dieser Satz bringt die Prüfung oft aus dem Gleichgewicht, weil er aus einer einfachen Sichtbarkeitsfrage ein Problem der Quellenlektüre macht.

Vier Pfade, die Genauigkeitsprobleme bei lokalen Unternehmen erzeugen

Das Labor wendet auch hier seinen qualitativen Anker an: vier Zitierpfade in der deutschen KI-Sichtbarkeit, deutschsprachige Quelle, übersetzte Quelle, Verzeichnisbrücke und unbelegte Behauptung. Jeder Pfad kann genaue oder ungenaue Antworten erzeugen. Entscheidend ist zu sehen, wo die Behauptung in die Antwort eingetreten ist.

Eine deutschsprachige Quelle kann trotzdem zu einer schwachen Antwort führen, wenn die eigene Seite vage ist. Viele lokale Unternehmen schreiben für bekannte Kunden. Ihre Seiten setzen regionales Wissen, Branchenvertrautheit oder Offline-Reputation voraus. Ein Modell kann die Website zitieren und sich trotzdem schwertun, die Leistungsgrenze zu erkennen. Das Unternehmen hält die Seite für klar, weil Stammkunden sie verstehen. Das Antwortsystem muss mehr erschließen, als die Seite sagt.

Eine übersetzte Quelle kann Genauigkeitsprobleme erzeugen, wenn sie das Unternehmen für ein anderes Publikum verdichtet. Deutsche Unternehmen schreiben englische Profile oft für Export, Partnersuche oder allgemeine Glaubwürdigkeit. Diese Profile können kürzer und allgemeiner sein als deutsche Seiten. Die englische Antwort kann dann zum Profil passen und am Unternehmen vorbeigehen. Diese Unterscheidung ist wichtig. Die Antwort halluziniert nicht; sie folgt einer schwachen Quelle.

Eine Verzeichnisbrücke kann helfen, lokal in eine Antwort aufgenommen zu werden, und zugleich die Präzision beschädigen. Lokale Verzeichnisse sind gut bei Namen, Adressen und Kategorien. Für Leistungsnuancen sind sie weniger zuverlässig. Wenn ein Käufer nach Firmen in einer Region fragt und das System auf Verzeichnisbrücken zurückgreift, kann die Antwort plausible Unternehmen enthalten und gleichzeitig verwischen, was jedes davon eigentlich tut. Aus der Entfernung sieht die Auswahlliste hilfreich aus. Aus der Nähe verschmieren die Kategorien.

Eine unbelegte Behauptung ist der seltsamste Pfad. Die Antwort sagt selbstsicher, dass das Unternehmen eine Leistung anbietet, eine Branche bedient oder zu einem Käuferbedarf passt, ohne zu zeigen, warum. In Antworten zu lokalen Unternehmen klingen unbelegte Behauptungen oft wie plausibles Füllmaterial. Das Modell sieht einen Namen, eine Region, eine breite Kategorie und schreibt den Satz, der dort üblicherweise hingehört. Das Labor markiert solche Behauptungen, weil sie eine Antwort vollständiger wirken lassen können, als die Belege erlauben.

Auslassungen sind ebenfalls Genauigkeitsfehler

Eine Genauigkeitsprüfung sollte auch Abwesenheit einschließen. Wenn ein relevantes lokales Unternehmen aus einer plausiblen Antwortmenge fehlt, kann die Antwort trotzdem nützlich sein, aber die Auslassung gehört ins Protokoll. Das Labor ist hier vorsichtig. Keine einzelne Antwort kann jedes relevante Unternehmen enthalten. Eine Auslassung wird erst dann besprechbar, wenn ein Muster über verwandte Prompts, wiederholte Durchläufe oder vergleichbare Systeme sichtbar wird.

Ein typisches zusammengesetztes Muster besteht darin, dass eine kleinere regionale Firma durch besser dokumentierte Firmen aus einer größeren Stadt ersetzt wird. Der Nutzer fragt nach Anbietern in einer Region. Die Antwort enthält einige nationale oder großstädtische Namen plus ein lokales Verzeichnisergebnis, lässt aber einen Spezialisten aus, dessen eigene Website für menschliche Leser klar ist, für die Antwortgenerierung aber schwach strukturiert. Das kann wie regionale Verzerrung aussehen, wie ein Problem der Quellenauswahl oder wie beides. In Work-Item 11 untersucht das Labor die Frage der Stadtverzerrung direkt; hier ist der Punkt enger. Abwesenheit kann Teil von Genauigkeit sein.

Objekt B, die zusammengesetzte Leipziger Firma, hilft, den Mechanismus zu zeigen. Wenn der Prompt nach Anbietern für industrielle Wartung in Leipzig fragt, kann die Firma erscheinen. Wenn der Prompt auf Englisch nach „German industrial service companies for equipment maintenance“ fragt, kann sie verschwinden und durch Unternehmen mit englischen Branchenprofilen ersetzt werden. Die Auslassung beweist nicht, dass der Firma Relevanz fehlt. Sie zeigt, dass sich die Antwortmenge verändert hat, als Sprache und Quellenverfügbarkeit sich verändert haben.

Auslassungen sind schwieriger verantwortungsvoll zu diskutieren als falsche Fakten, weil die Grenze der erwarteten Antwortmenge unscharf ist. Das Labor vermeidet die Aussage „das Modell hätte dieses Unternehmen aufnehmen müssen“, solange Prompt, Region, Leistungskategorie und öffentliche Belege die Abwesenheit nicht bedeutsam machen. Selbst dann bleibt die Schlussfolgerung vorsichtig. Die Auslassung ist ein Muster innerhalb der Stichprobe, kein rechtliches Urteil über Relevanz.

Für Agenturen und Geschäftsinhaber ist das trotzdem als Beobachtung nutzbar. Wenn ein relevantes Unternehmen wiederholt aus plausiblen Prompts verschwindet, lautet die Frage, welche öffentlichen Belege es nicht in die Antwort getragen haben. Das fehlende Glied kann eine Leistungskategorie, eine englische Beschreibung, eine regionale Formulierung, eine Verzeichniskorrektur oder ein Vergleichskontext sein. Der Reparaturhinweis bleibt bedingt.

Wie das Labor eine lokale Antwort liest

Das Labor beginnt mit der Antwort, wie sie geschrieben ist. Es zeichnet den Wortlaut des Prompts, den Wortlaut der Antwort, sichtbare Quellenverweise, implizite Zitierpfade, verwendete Sprache und zugewiesene Unternehmenskategorie auf. Dieser kleine Datensatz verhindert, dass die Prüfung zu einer Beschwerde darüber wird, ob die Antwort fair wirkt. Das Gefühl von Unfairness kann die Prüfung auslösen, aber es kann die Schlussfolgerung nicht tragen.

Die erste Lektüre prüft die Identität. Ist das Unternehmen korrekt benannt? Ist der Standort plausibel? Sind offensichtliche Fakten falsch? Die zweite Lektüre prüft die Kategorie. Benennt die Antwort den Unternehmenstyp so, dass er zu den öffentlichen Belegen passt? Die dritte Lektüre prüft den Leistungsumfang. Bewahrt die Antwort, was das Unternehmen tatsächlich anbietet, oder rutscht sie in eine benachbarte Leistung? Die vierte Lektüre prüft den Kontext. Platziert die Antwort das Unternehmen in der richtigen Käufersituation, Region und Vergleichsmenge?

Diese Abfolge legt oft Antworten frei, die zunächst in Ordnung wirkten. Ein Unternehmen kann die Identität bestehen und an der Kategorie scheitern. Es kann die Kategorie bestehen und am Leistungsumfang scheitern. Es kann beides bestehen und trotzdem von Wettbewerbern umgeben sein, die den impliziten Markt verschieben. Das Labor liest den Absatz als eine Reihe von Zuweisungen. Jede Zuweisung hat einen möglichen Zitierpfad.

Das Team sucht auch nach Phrasen-Fingerabdrücken. Eine bestimmte Produktformulierung, alte Markenvariante, Leistungsbezeichnung oder regionale Ergänzung kann verraten, wo die Antwort ihre Wortwahl aufgenommen hat. Der Fingerabdruck ist für sich allein kein Beweis. Er ist ein Hinweis. Wenn dieselbe Formulierung in einem älteren Verzeichnisprofil und in der Antwort erscheint, markiert das Labor einen wahrscheinlichen Zitierpfad. Wenn sie auf mehreren Seiten erscheint, bleibt die Unsicherheit offen.

Grenzen der lokalen Genauigkeitsprüfung

Dieses Material behauptet nicht, die allgemeine Genauigkeit von KI-Antworten zu lokalen Unternehmen in Deutschland zu messen. Das Labor erfindet keine Stichprobengrößen, Prozentsätze oder nationalen Raten. Es untersucht aufgezeichnetes Antwortverhalten innerhalb begrenzter Prompt-Sets und beschreibt Muster nur dann, wenn verwandte Beobachtungen sie stützen.

Die Methode hat blinde Flecken. Manche Systeme zeigen Quellenverweise anders, manche zeigen für zentrale Behauptungen gar keine Quellenverweise, und manche Antworten können aus Quellen schöpfen, die der Leser nicht sehen kann. Wenn kein Zitierpfad sichtbar ist, wenn mehrere öffentliche Quellen dieselbe Behauptung stützen könnten oder wenn deutsche und englische Antworten auf unterschiedliche Belege zeigen, markiert das Labor Unsicherheit. Diese Unsicherheit ist keine Fußnote. Sie ist Teil des Befunds.

Die stärkste Schlussfolgerung ist praktisch: Die Genauigkeit lokaler Unternehmensdarstellungen sollte als Repräsentation geprüft werden, nicht nur als Faktencheck. Ein korrekter Name und eine korrekte Stadt sind nur die äußere Schale. Unternehmenskategorie, Leistungsgrenze, regionale Passung und Käuferkontext tragen die Bedeutung. Wenn sie verbogen werden, kann die Antwort genau genug sein, um sicher zu wirken, und ungenau genug, um die Entscheidung zu verändern.