Was ein Sitemap-Checker wirklich tut
Ein Sitemap-Checker ruft Ihre sitemap.xml-Datei ab, parst jeden <url>-Eintrag, extrahiert die Tags <loc>, <lastmod>, <changefreq> und <priority>, macht dann eine HTTP HEAD Request für jede URL, um zu bestätigen, dass sie 200 zurückgibt. Er kennzeichnet Weiterleitungen, 404er und Serverfehler, prüft auf doppelte URLs und vergleicht Ihre Sitemap-Struktur mit der XML-Sitemap-Spezifikation.
Wenn Ihre Sitemap ein Sitemap-Index ist – eine Datei, die andere Sitemap-Dateien anstelle einzelner URLs auflistet – folgen wir jeder Referenz, rufen jede untergeordnete Sitemap ab und aggregieren die Ergebnisse. Eine einzelne Überprüfung deckt Ihren gesamten Sitemap-Baum bis zu 200 URLs im Vollmodus oder 50 URLs im Beispielmodus ab.
Drei Kategorien von Problemen treten in jedem Sitemap-Audit auf. Fehlerhafte URLs, die 404 oder 500 zurückgeben. Doppelte URLs, die mehr als einmal aufgelistet sind und das Crawl-Budget verschwenden. Und verwaiste URLs, die in der Sitemap angezeigt werden, aber null interne Links haben, was bedeutet, dass ein Benutzer sie nicht durch Anklicken auf Ihrer Website erreichen kann. Unser Checker kennzeichnet alle drei in einem Durchgang.
So verwenden Sie diesen Sitemap-Checker
- Fügen Sie Ihre Sitemap-URL in Sitemap URL ein. Normalerweise
https://www.yourdomain.com/sitemap.xmloderhttps://www.yourdomain.com/sitemap_index.xml. - Wählen Sie eine Crawl depth aus dem Dropdown. Index only validiert die XML-Struktur, ohne URLs abzurufen. All referenced sitemaps folgt jeder Sitemap, die in einem Index aufgelistet ist. Sample 50 URLs prüft Statuscodes für 50 zufällige URLs. Full - up to 200 URLs prüft jede URL, die wir finden, bis zur Grenze.
- Klicken Sie auf Check sitemap. Sie erhalten eine Zusammenfassungstabelle mit Gesamt-URLs, Statuscode-Aufschlüsselung, Anzahl der Duplikate, durchschnittlichem lastmod-Alter und etwaigen XML-Schema-Fehlern.
- Erweitern Sie Problem URLs, um eine zeilenweise Liste von 404ern, 301ern, Duplikaten und verwaisten Seiten zu sehen. Jede Zeile zeigt die URL, den Status, das lastmod-Datum und die empfohlene Lösung.
- Klicken Sie auf Download CSV, um den vollständigen Bericht zu exportieren. Verwenden Sie ihn, um Probleme in Ihrem CMS stapelweise zu beheben oder an einen Entwickler weiterzugeben.
Versuchen Sie, eine Sitemap mit mehr als einer Datei zu überprüfen. Wenn Ihr Sitemap-Index fünf Unter-Sitemaps auflistet und eine 404 zurückgibt, melden wir die fehlerhafte Referenz und überspringen diese Datei. Die anderen vier werden immer noch überprüft. Wenn Sie eine flache Sitemap mit 10.000 URLs haben, wählen Sie zuerst Sample 50, um eine Stichprobenprobe durchzuführen, bevor Sie den vollständigen Crawl durchführen.
Warum Statuscodes wichtiger sind als XML-Gültigkeit
Eine Sitemap kann perfekt gültiges XML sein und dennoch Ihrem SEO schaden. Wenn 30 URLs 404 zurückgeben, verschwendet Google Crawl-Budget beim Abruf von Seiten, die nicht existieren. Wenn 50 URLs 301-Weiterleitungen sind, muss Google die Weiterleitung folgen, was die Anforderungsanzahl verdoppelt und das Indexieren verlangsamt. Wenn URLs 500-Fehler zurückgeben, könnte Google sie völlig aus dem Index fallen lassen.
Drei praktische Konsequenzen.
Crawl-Budget. Google ordnet jeder Website ein tägliches Crawl-Budget basierend auf Servergeschwindigkeit, Website-Autorität und Crawl-Anforderung zu. Jede 404 oder Weiterleitung in Ihrer Sitemap subtrahiert von diesem Budget, ohne neuen Inhalt zu indexieren. Das Bereinigen der Sitemap vor dem Einreichen bei Search Console macht jeden Crawl zählen.
Index-Abdeckung. URLs mit 4xx- oder 5xx-Statuscodes können nach wiederholten Fehlern aus dem Index ausgeschlossen werden. Wenn diese Seiten wichtig sind – Produktseiten, Blog-Posts mit Backlinks, Landing Pages für bezahlte Kampagnen – verlieren Sie Traffic. Eine Sitemap-Überprüfung erkennt dies, bevor sich der Schaden verschärft.
Lastmod-Genauigkeit. Das <lastmod>-Tag teilt Google mit, wann eine Seite zuletzt aktualisiert wurde. Wenn jede Seite das gleiche lastmod von vor drei Jahren hat, lernt Google, dass Ihre Sitemap veraltet ist, und kann weniger häufig crawlen. Wenn lastmod immer „gestern" ist, selbst wenn sich der Inhalt nicht geändert hat, lernt Google, es zu ignorieren. Unser Checker meldet das durchschnittliche lastmod-Alter und kennzeichnet verdächtige Muster.
Doppelte URLs und kanonische Konflikte
Eine doppelte URL in einer Sitemap bedeutet normalerweise, dass der gleiche loc zweimal angezeigt wird, oft mit einem Unterschied bei der nachfolgenden Schrägstrich oder einem Protokoll-Mismatch. /page und /page/ sind für einen Parser unterschiedliche URLs, selbst wenn Ihr Server sie als identisch behandelt. http://example.com/page und https://example.com/page sind unterschiedlich. Unser Checker normalisiert diese Muster und kennzeichnet sie als wahrscheinliche Duplikate.
Wenn Ihre Sitemap /page auflistet, diese URL aber zu /page/ umleitet, verschwendet die Weiterleitung eine Anforderung. Es ist besser, das endgültige Ziel in der Sitemap aufzulisten und die Weiterleitung auf Serverebene zu beheben. Wir zeigen die Umleitungskette und empfehlen, die 200-Status-Version aufzulisten.
Kanonische Konflikte sind ein verwandtes Problem. Wenn Ihre Sitemap /page-a enthält, aber diese Seite ein <link rel="canonical" href="/page-b">-Tag hat, sieht Google einen Konflikt. Die Sitemap sagt „indexiere page-a", aber die Seite sagt „ich bin ein Duplikat von page-b." Google kann das Sitemap-Eintrag ignorieren. Führen Sie einen canonical checker auf gekennzeichneten URLs durch, um zu bestätigen, dass der kanonische dem Sitemap-loc entspricht.
Verwaiste Seiten und Crawlbarkeit
Eine verwaiste Seite ist in Ihrer Sitemap, hat aber keine internen Links, die auf sie verweisen. Ein Bot kann sie über die Sitemap finden, aber ein Mensch kann sie nicht durch Navigation auf Ihrer Website erreichen. Dies ist nach Content-Migrationen üblich, wenn alte URLs in der Sitemap verbleiben, aber das Navigationsmenü aktualisiert wurde.
Verwaiste Seiten sind nicht immer schlecht. Eine Landing Page für eine bezahlte Anzeigenkampagne könnte absichtlich verwaist sein, um den Zugriff zu kontrollieren. Aber verwaiste Blog-Posts oder Produktseiten signalisieren ein Site-Struktur-Problem. Wenn die Seite zugänglich sein sollte, fügen Sie interne Links hinzu. Wenn sie nicht existieren sollte, entfernen Sie sie aus der Sitemap und 301er sie zu einer Live-Seite.
Unser Checker erkennt wahrscheinliche Verwaiste, indem er Sitemap-URLs mit Ihrem internen Link-Diagramm vergleicht. Wenn eine URL in der Sitemap angezeigt wird, aber null eingehende Links von Seiten hat, die wir gecrawlt haben, kennzeichnen wir sie. Diese Heuristik erkennt die meisten Verwaisten, ohne dass ein vollständiger Site-Crawl erforderlich ist.
Häufige Fehler
- Einreichen eines Sitemap-Index bei einem Tool, das flache Sitemaps erwartet. Die meisten Validatoren scheitern bei Indizes oder testen nur die Index-Datei selbst. Unserer folgt jeder Referenz, sodass Sie Ergebnisse für den gesamten Baum erhalten.
- Auflistung von nicht-kanonischen URLs. Jede URL in Ihrer Sitemap sollte die kanonische Version sein. Listieren Sie nicht die www-Version auf, wenn die Kanonische non-www ist. Listieren Sie nicht http auf, wenn die Kanonische https ist. Verwenden Sie zuerst Ihren kanonischen Checker, wenn Sie sich unsicher sind.
- Einbeziehung von URLs, die durch robots.txt blockiert sind. Wenn eine URL in Ihrer Sitemap ist, aber in robots.txt disallowed, kann Google sie nicht crawlen. Dies erzeugt eine Search Console Warnung. Prüfen Sie robots.txt mit unserem robots.txt checker, bevor Sie eine neue Sitemap bereitstellen.
- Festlegen von lastmod auf das Datum der Sitemap-Generierung, nicht das Datum der Inhaltänderung. Wenn Ihr CMS die Sitemap täglich regeneriert und jede URL mit heute's Datum stempelt, stoppt Google, lastmod zu vertrauen. Füllen Sie lastmod aus dem tatsächlichen updated-at-Zeitstempel des Posts.
- Vergessen, nach einer Migration erneut zu prüfen. Alte URLs verbleiben oft in einer Sitemap nach dem Wechsel zu einer neuen Plattform. Wenn die Hälfte Ihrer Sitemap 404 zurückgibt, zeigt Search Console den Rückgang der Abdeckung. Prüfen Sie die Sitemap unmittelbar nach der Migration.
- Nicht einzeln Kinder-Sitemaps überprüfen. Wenn Ihr Sitemap-Index einen fehlerhaften Kind hat, könnten Sie es erst bemerken, wenn Crawl-Fehler in die Höhe schnellen. Testen Sie jede Kind-Sitemap-URL isoliert, um zu bestätigen, dass sie 200 zurückgibt und korrekt geparst wird.
Erweiterte Tipps
- Führen Sie zuerst eine Beispielüberprüfung auf großen Sitemaps durch. Wenn die Beispielüberprüfung ein Muster offenbart – jede URL ist 301, oder lastmod fehlt – beheben Sie es, bevor Sie alle 10.000 URLs crawlen. Die Beispielüberprüfung gibt Ihnen Signal in 10 Sekunden statt 5 Minuten.
- Vergleichen Sie lastmod-Daten mit Ihren CMS-Veröffentlichungsdaten. Wenn ein Post letzte Woche aktualisiert wurde, aber lastmod vor sechs Monaten ist, ist Ihr Sitemap-Generierungsskript kaputt.
- Prüfen Sie Ihre Sitemap monatlich, nicht nur einmal. Inhalt wird veraltet, Weiterleitungen werden hinzugefügt, URLs werden nicht veröffentlicht. Eine monatliche Überprüfung erkennt Verfall, bevor Google es tut.
- Wenn Sie einen Anstieg von 404ern sehen, exportieren Sie das CSV und kreuzen Sie es mit Ihren Server-Logs ab. Manchmal ist eine URL in der Sitemap 404, erhält aber immer noch Traffic von Backlinks, was bedeutet, dass sie stattdessen 301er werden sollte.
- Testen Sie die gleiche Sitemap von zwei verschiedenen User-Agents (Desktop Chrome und Googlebot). Wenn sich die Statuscodes unterscheiden, cloaked Ihr Server oder gibt unterschiedliche Antworten auf Bots zurück, was gegen Googles Richtlinien verstößt.
- Wenn Duplikate gefunden werden, prüfen Sie auf kanonische Tags. Eine doppelte URL mit einem kanonischen, das auf anderem verweist, kann in der Sitemap verbleiben, wenn es sich um eine regionale oder Sprachvariante handelt. Wenn es keine Variante ist, entfernen Sie sie.
Nach der Behebung von Sitemap-Problemen validieren Sie, dass Ihre robots.txt-Datei die Sitemap-Position korrekt mit einer Sitemap:-Zeile deklariert. Verwenden Sie den robots.txt checker, um dies zu bestätigen. Simulieren Sie dann, wie Googlebot eine Ihrer Seiten mit dem Google crawler simulator sieht, um zu bestätigen, dass die URL geladen wird, JavaScript ausgeführt wird und der Inhalt sichtbar ist. Wenn Sie Metadaten neben Sitemaps prüfen, rendert der website metadata checker Ihren Title, Meta und OG-Tags so, wie sie in SERPs angezeigt werden.