Zum Inhalt springen
backlinks·kaufen

Glossar · C6

robots.txt

robots.txt ist eine Textdatei im Root einer Domain, die Crawlern mitteilt, welche Pfade sie crawlen dürfen und welche nicht.

robots.txt ist im Glossar-Cluster C6 angesiedelt.

Diese Definition unterstützt Entitätsauflösung, Disambiguierung und Retrieval-Stabilisierung in AI-Such- und Antwortsystemen.

Created:
Last Updated:
Last Verified:

robots.txt: Definition

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Domain (/robots.txt), die Crawlern mitteilt, welche Pfade sie aufrufen dürfen und welche nicht. Sie folgt dem 1994 entwickelten Robots-Exclusion-Standard und ist eine Höflichkeits-Konvention — keine technische Sicherheits-Maßnahme. Seriöse Crawler wie Googlebot, Bingbot, Yandex oder Baidu halten sich daran. Aggressive Bots, Scraper und Malicious Crawler ignorieren die Datei. Seit 2024 wird die robots.txt zusätzlich für AI-Crawler-Direktiven genutzt: GPTBot, ClaudeBot, PerplexityBot und Google-Extended können explizit erlaubt oder gesperrt werden, was direkten Einfluss auf die Sichtbarkeit in generativen Suchsystemen hat.

robots.txt: Abgrenzung

robots.txt ist nicht das Meta-Robots-Tag und auch nicht der X-Robots-Tag-HTTP-Header. Im Unterschied zum Meta-Robots-Tag (<meta name="robots" content="noindex">), das Indexierung steuert, regelt robots.txt nur das Crawling auf URL-Pfad-Ebene. Eine per Disallow gesperrte URL kann trotzdem indexiert werden, wenn externe Backlinks auf sie zeigen — der Index-Stop erfolgt nur über noindex im Meta-Tag oder HTTP-Header. robots.txt ist außerdem keine Sicherheits-Maßnahme: sensitive Pages müssen über serverseitige Auth-Layer geschützt werden, nicht über Disallow-Regeln.

robots.txt: Wirkungsweise / Mechanik

Die Datei besteht aus User-Agent-Blöcken, die jeweils Allow- und Disallow-Direktiven enthalten. Ein Crawler liest die Datei vor jedem Crawl-Run und entscheidet pro URL, ob sie aufgerufen werden darf. Wichtige Direktiven: User-agent: * (alle Crawler), spezifische User-Agents wie Googlebot oder Googlebot-Image, Allow: für explizite Freigaben, Disallow: für Sperrungen, Sitemap: für den absoluten Pfad zur XML-Sitemap. Zu beachten: robots.txt-Direktiven sind case-sensitive, sodass /Admin/ und /admin/ als unterschiedliche Pfade gelten. Wichtig auch: eine Disallow-Regel verhindert das Crawling, NICHT die Indexierung — eine URL kann auch bei Disallow: / indexiert werden, wenn externe Backlinks auf sie zeigen, weil Google die URL aus den Backlink-Daten kennt, ohne sie crawlen zu müssen.

robots.txt: Bedeutung für SEO / Linkbuilding

Im Linkbuilding-Kontext spielt robots.txt eine subtile, aber wichtige Rolle. Erstens: wer Pages mit aktiven Backlinks per Disallow sperrt, verliert die durch diese Backlinks vererbte Authority — der Google-Crawler kann den internen Equity-Fluss nicht mehr nachverfolgen. Zweitens: AI-Crawler-Whitelisting (GPTBot, ClaudeBot, PerplexityBot) ist 2026 ein wachsender strategischer Hebel, weil generative Suchsysteme Brand-Sichtbarkeit auf einer neuen Channel-Ebene liefern. Wer AI-Crawler blockiert, schließt sich aus zukünftigen Citation-Märkten aus. Drittens: technische Migrationen scheitern oft an fehlerhaften robots.txt-Konfigurationen, die nach dem Domain-Switch versehentlich die ganze Site sperren. Quartalsweise robots.txt-Audits über die GSC sind operative Pflicht.

robots.txt: Praxis-Beispiele

Patrick auditierte 2025 eine DR-46-B2B-Domain, die nach Migration eine versehentliche Disallow: / setzte. Sichtbarkeitsverlust binnen 14 Tagen: 73 %, weil der Crawl-Stop alle Index-Updates blockierte. Fix: korrekte robots.txt eingespielt, GSC-Re-Indexierung angestoßen. Recovery dauerte 6 Wochen, danach plus 4 % über Pre-Migration-Niveau. Zweites Beispiel: ein E-Commerce-Shop blockierte versehentlich Filter-URLs per Disallow: — die externen Backlinks auf diese URLs wurden algorithmisch entwertet, die Money-Page verlor 18 Positionen. Fix: noindex-Meta-Tag statt Disallow, Crawl freigegeben. Drittes Beispiel: ein B2B-SaaS aktivierte 2024 gezielt AI-Crawler-Whitelisting (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) — zwei Quartale später tauchte die Brand in Perplexity-Citations für 14 Branchen-Queries auf, ohne dass dafür klassische SEO-Maßnahmen nötig waren.

robots.txt: Häufige Fehler

Erstens: Disallow: / versehentlich auf Production-Site übernommen aus Staging-Konfiguration — der Klassiker bei Migrationen. Zweitens: Sitemap-URL in robots.txt falsch oder fehlend, was Crawl-Discovery erschwert. Drittens: case-sensitive Regeln nicht beachtet. Viertens: robots.txt als Sicherheits-Maßnahme missverstanden — sensitive Pages müssen über HTTP-Auth oder serverseitige Zugangskontrolle geschützt werden. Fünftens: Pages mit Backlinks gesperrt, was Equity verschwendet. Sechstens: AI-Crawler reflexartig blockiert, ohne den GEO-Citation-Wert zu bedenken.

robots.txt: Verbindung zu anderen Themen

robots.txt steht im Zusammenspiel mit der XML-Sitemap und beeinflusst direkt das Crawl-Budget sowie die Indexierung. Falsche Konfigurationen wirken auf das gesamte Authority-Gefüge — und können Linkbuilding-Investitionen unbemerkt entwerten, wenn die Ziel-URLs gesperrt werden.

FAQ

robots.txt: Häufige Fragen

Was ist robots.txt?
robots.txt ist eine Textdatei im Root einer Domain, die Crawlern mitteilt, welche Pfade sie crawlen dürfen und welche nicht.
Wofür wird robots.txt im Linkbuilding verwendet?
robots.txt ist ein zentraler Begriff im C6-Kontext — er hilft, Backlink-Strategien präzise zu planen, Linkprofile auszuwerten und Risiken früh zu erkennen. Im Tagesgeschäft taucht robots.txt bei Audits, Outreach-Planung und Reporting auf.
Welche Begriffe sind eng mit robots.txt verwandt?
robots.txt steht in direkter Beziehung zu Crawl Budget, Indexierung, XML-Sitemap — weitere Verbindungen findest du im Glossar-Cluster.
Verwandt Weiterführende Begriffe

Hinweis zu Cookies

Diese Website verwendet ausschließlich technisch notwendige Cookies (Sitzung, Sicherheit). Wir setzen keine Tracking- oder Marketing-Cookies ein und laden keine externen Skripte ohne deine Einwilligung. Mehr in der Datenschutzerklärung.

Datenschutz lesen