Sitemap- und URL-Discovery: Jede URL jeder Site finden, $1 pro 1.000 Sitemaps

robots.txt, sitemap.xml und verschachtelte Sitemap-Indexe parsen, um jede veröffentlichte URL einer Website zu entdecken. Liefert jede URL mit Last-Modified-Datum, Change-Frequency und Priority. Unterstützt gzipped Sitemaps und Sitemap-Index-Ketten. Für Bulk gebaut: eine Liste von Domains rein, das vollständige URL-Inventar jeder raus. Ideal für SEO-Audits, Content-Monitoring, Competitive Intelligence und Pre-Crawl-URL-Discovery.

Auf Apify öffnen → Jetzt testen

Preise

$0,001/Sitemap

RAM

128MB

Abdeckung

Beliebige Domain

Ausgabefelder

Proxy

Apify Datacenter

Technik

Natives XML + gzip

Was Sie erhalten

URL-Inventar: jedes aus sitemap.xml und verschachtelten Sitemap-Indexen
Per-URL-Metadaten: lastmod, changefreq, priority, image_count, video_count
Sitemap-Quelle: sitemap_url, sitemap_type (urlset / sitemapindex), is_gzipped
robots.txt: deklarierte Sitemaps, erlaubte/verbotene Pfade, crawl_delay
Aggregate: total_urls, last_modified_max, scraped_at

Wichtige Anwendungsfälle

SEO-Audits. Deklarierte URLs mit gecrawlten URLs vergleichen, um Indexierungslücken zu finden
Content-Monitoring. Sitemaps über Zeit diffen, um neue, geänderte oder entfernte Seiten zu erkennen
Competitive Intelligence. Den vollen Content-Footprint eines Wettbewerbers durch Parsen seiner Sitemap-Kette mappen
Pre-Crawl-URL-Discovery. Die URL-Liste an einen nachgelagerten Crawler für gezieltes Scraping übergeben
Migrations-QA. Verifizieren, dass jede URL im alten Sitemap nach einem Relaunch korrekt weiterleitet

API-Beispiel

# Einen Lauf über die Apify-API starten
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~sitemap-url-discovery/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "domains": [
      "https://example.com",
      "https://competitor.com",
      "https://news-site.com"
    ],
    "maxUrlsPerSite": 10000,
    "followSitemapIndexes": true,
    "parseRobotsTxt": true
  }'

# Oder mit KI-Agenten via MCP verwenden:
# https://mcp.apify.com?tools=santamaria-automations/sitemap-url-discovery

Integrationen

n8n, Make, Zapier: Läufe auslösen und Datensätze per Webhook verarbeiten
KI-Agenten (MCP): Claude Desktop, Cursor, VS Code, LangChain, LlamaIndex
Python, Node.js: Apify SDK für programmatischen Zugriff
Google Sheets, Airtable: Bulk-Eingaben rein, strukturierte Daten raus

Ausgabefelder

Feld	Typ	Beispiel
source_domain	string	example.com
sitemap_url	string	https://example.com/sitemap.xml
total_urls	integer	12.486
url	string	https://example.com/blog/post-1
lastmod	string	2026-06-10T14:00:00Z
changefreq	string	weekly
priority	number	0,8
robots_sitemaps	array	["https://example.com/sitemap.xml"]
is_gzipped	boolean	false
scraped_at	string	2026-06-13T10:15:42Z

Sitemap- und URL-Discovery: Jede URL jeder Site finden, $1 pro 1.000 Sitemaps

Was Sie erhalten

Wichtige Anwendungsfälle

API-Beispiel

Integrationen

Ausgabefelder

Verwandte Aktoren