robots.txt: Definition
Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Domain (/robots.txt), die Crawlern mitteilt, welche Pfade sie aufrufen dürfen und welche nicht. Sie folgt dem 1994 entwickelten Robots-Exclusion-Standard und ist eine Höflichkeits-Konvention — keine technische Sicherheits-Maßnahme. Seriöse Crawler wie Googlebot, Bingbot, Yandex oder Baidu halten sich daran. Aggressive Bots, Scraper und Malicious Crawler ignorieren die Datei. Seit 2024 wird die robots.txt zusätzlich für AI-Crawler-Direktiven genutzt: GPTBot, ClaudeBot, PerplexityBot und Google-Extended können explizit erlaubt oder gesperrt werden, was direkten Einfluss auf die Sichtbarkeit in generativen Suchsystemen hat.
robots.txt: Abgrenzung
robots.txt ist nicht das Meta-Robots-Tag und auch nicht der X-Robots-Tag-HTTP-Header. Im Unterschied zum Meta-Robots-Tag (<meta name="robots" content="noindex">), das Indexierung steuert, regelt robots.txt nur das Crawling auf URL-Pfad-Ebene. Eine per Disallow gesperrte URL kann trotzdem indexiert werden, wenn externe Backlinks auf sie zeigen — der Index-Stop erfolgt nur über noindex im Meta-Tag oder HTTP-Header. robots.txt ist außerdem keine Sicherheits-Maßnahme: sensitive Pages müssen über serverseitige Auth-Layer geschützt werden, nicht über Disallow-Regeln.
robots.txt: Wirkungsweise / Mechanik
Die Datei besteht aus User-Agent-Blöcken, die jeweils Allow- und Disallow-Direktiven enthalten. Ein Crawler liest die Datei vor jedem Crawl-Run und entscheidet pro URL, ob sie aufgerufen werden darf. Wichtige Direktiven: User-agent: * (alle Crawler), spezifische User-Agents wie Googlebot oder Googlebot-Image, Allow: für explizite Freigaben, Disallow: für Sperrungen, Sitemap: für den absoluten Pfad zur XML-Sitemap. Zu beachten: robots.txt-Direktiven sind case-sensitive, sodass /Admin/ und /admin/ als unterschiedliche Pfade gelten. Wichtig auch: eine Disallow-Regel verhindert das Crawling, NICHT die Indexierung — eine URL kann auch bei Disallow: / indexiert werden, wenn externe Backlinks auf sie zeigen, weil Google die URL aus den Backlink-Daten kennt, ohne sie crawlen zu müssen.
robots.txt: Bedeutung für SEO / Linkbuilding
Im Linkbuilding-Kontext spielt robots.txt eine subtile, aber wichtige Rolle. Erstens: wer Pages mit aktiven Backlinks per Disallow sperrt, verliert die durch diese Backlinks vererbte Authority — der Google-Crawler kann den internen Equity-Fluss nicht mehr nachverfolgen. Zweitens: AI-Crawler-Whitelisting (GPTBot, ClaudeBot, PerplexityBot) ist 2026 ein wachsender strategischer Hebel, weil generative Suchsysteme Brand-Sichtbarkeit auf einer neuen Channel-Ebene liefern. Wer AI-Crawler blockiert, schließt sich aus zukünftigen Citation-Märkten aus. Drittens: technische Migrationen scheitern oft an fehlerhaften robots.txt-Konfigurationen, die nach dem Domain-Switch versehentlich die ganze Site sperren. Quartalsweise robots.txt-Audits über die GSC sind operative Pflicht.
robots.txt: Praxis-Beispiele
Patrick auditierte 2025 eine DR-46-B2B-Domain, die nach Migration eine versehentliche Disallow: / setzte. Sichtbarkeitsverlust binnen 14 Tagen: 73 %, weil der Crawl-Stop alle Index-Updates blockierte. Fix: korrekte robots.txt eingespielt, GSC-Re-Indexierung angestoßen. Recovery dauerte 6 Wochen, danach plus 4 % über Pre-Migration-Niveau. Zweites Beispiel: ein E-Commerce-Shop blockierte versehentlich Filter-URLs per Disallow: — die externen Backlinks auf diese URLs wurden algorithmisch entwertet, die Money-Page verlor 18 Positionen. Fix: noindex-Meta-Tag statt Disallow, Crawl freigegeben. Drittes Beispiel: ein B2B-SaaS aktivierte 2024 gezielt AI-Crawler-Whitelisting (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) — zwei Quartale später tauchte die Brand in Perplexity-Citations für 14 Branchen-Queries auf, ohne dass dafür klassische SEO-Maßnahmen nötig waren.
robots.txt: Häufige Fehler
Erstens: Disallow: / versehentlich auf Production-Site übernommen aus Staging-Konfiguration — der Klassiker bei Migrationen. Zweitens: Sitemap-URL in robots.txt falsch oder fehlend, was Crawl-Discovery erschwert. Drittens: case-sensitive Regeln nicht beachtet. Viertens: robots.txt als Sicherheits-Maßnahme missverstanden — sensitive Pages müssen über HTTP-Auth oder serverseitige Zugangskontrolle geschützt werden. Fünftens: Pages mit Backlinks gesperrt, was Equity verschwendet. Sechstens: AI-Crawler reflexartig blockiert, ohne den GEO-Citation-Wert zu bedenken.
robots.txt: Verbindung zu anderen Themen
robots.txt steht im Zusammenspiel mit der XML-Sitemap und beeinflusst direkt das Crawl-Budget sowie die Indexierung. Falsche Konfigurationen wirken auf das gesamte Authority-Gefüge — und können Linkbuilding-Investitionen unbemerkt entwerten, wenn die Ziel-URLs gesperrt werden.
FAQ
robots.txt: Häufige Fragen
- Was ist robots.txt?
- robots.txt ist eine Textdatei im Root einer Domain, die Crawlern mitteilt, welche Pfade sie crawlen dürfen und welche nicht.
- Wofür wird robots.txt im Linkbuilding verwendet?
- robots.txt ist ein zentraler Begriff im C6-Kontext — er hilft, Backlink-Strategien präzise zu planen, Linkprofile auszuwerten und Risiken früh zu erkennen. Im Tagesgeschäft taucht robots.txt bei Audits, Outreach-Planung und Reporting auf.
- Welche Begriffe sind eng mit robots.txt verwandt?
- robots.txt steht in direkter Beziehung zu Crawl Budget, Indexierung, XML-Sitemap — weitere Verbindungen findest du im Glossar-Cluster.
Glossar · C6
Crawl Budget
Crawl Budget ist die Anzahl Pages, die Googlebot pro Domain in einer bestimmten Zeit crawlt — limitierte Ressource, besonders für große Domains relevant.
Glossar · C6
Indexierung
Indexierung ist der Prozess, mit dem Suchmaschinen Pages in ihren durchsuchbaren Index aufnehmen — Voraussetzung für Rankings.
Glossar · C6
XML-Sitemap
Eine XML-Sitemap ist eine strukturierte URL-Liste, die Suchmaschinen-Crawlern die wichtigsten Pages einer Domain mitteilt — beschleunigt Indexierung.