Parsez robots.txt, sitemap.xml et index de sitemaps imbriqués pour découvrir chaque URL publiée sur tout site. Retourne chaque URL avec date de dernière modification, fréquence de changement et priorité. Supporte sitemaps gzippés et chaînes d'index. Construit pour le bulk : liste de domaines en entrée, inventaire complet d'URLs pour chacun en sortie. Idéal pour audits SEO, surveillance de contenu, intelligence concurrentielle et découverte d'URL avant crawl.
# Lancer une exécution via l'API Apify curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~sitemap-url-discovery/runs?token=YOUR_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "domains": [ "https://example.com", "https://competitor.com", "https://news-site.com" ], "maxUrlsPerSite": 10000, "followSitemapIndexes": true, "parseRobotsTxt": true }' # Ou utiliser avec des agents IA via MCP : # https://mcp.apify.com?tools=santamaria-automations/sitemap-url-discovery
| Champ | Type | Exemple |
|---|---|---|
| source_domain | string | example.com |
| sitemap_url | string | https://example.com/sitemap.xml |
| total_urls | integer | 12 486 |
| url | string | https://example.com/blog/post-1 |
| lastmod | string | 2026-06-10T14:00:00Z |
| changefreq | string | weekly |
| priority | number | 0,8 |
| robots_sitemaps | array | ["https://example.com/sitemap.xml"] |
| is_gzipped | boolean | false |
| scraped_at | string | 2026-06-13T10:15:42Z |