robots.txt, sitemap.xml und verschachtelte Sitemap-Indexe parsen, um jede veröffentlichte URL einer Website zu entdecken. Liefert jede URL mit Last-Modified-Datum, Change-Frequency und Priority. Unterstützt gzipped Sitemaps und Sitemap-Index-Ketten. Für Bulk gebaut: eine Liste von Domains rein, das vollständige URL-Inventar jeder raus. Ideal für SEO-Audits, Content-Monitoring, Competitive Intelligence und Pre-Crawl-URL-Discovery.
# Einen Lauf über die Apify-API starten curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~sitemap-url-discovery/runs?token=YOUR_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "domains": [ "https://example.com", "https://competitor.com", "https://news-site.com" ], "maxUrlsPerSite": 10000, "followSitemapIndexes": true, "parseRobotsTxt": true }' # Oder mit KI-Agenten via MCP verwenden: # https://mcp.apify.com?tools=santamaria-automations/sitemap-url-discovery
| Feld | Typ | Beispiel |
|---|---|---|
| source_domain | string | example.com |
| sitemap_url | string | https://example.com/sitemap.xml |
| total_urls | integer | 12.486 |
| url | string | https://example.com/blog/post-1 |
| lastmod | string | 2026-06-10T14:00:00Z |
| changefreq | string | weekly |
| priority | number | 0,8 |
| robots_sitemaps | array | ["https://example.com/sitemap.xml"] |
| is_gzipped | boolean | false |
| scraped_at | string | 2026-06-13T10:15:42Z |