解析 robots.txt、sitemap.xml 和嵌套 sitemap 索引以发现任意网站上每一个已发布 URL。返回每个 URL 及其最后修改日期、变更频率和优先级。支持 gzip sitemap 和 sitemap 索引链。为批量而生:输入域名列表,返回每个域名的完整 URL 清单。适用于 SEO 审计、内容监控、竞争情报和爬取前 URL 发现。
# 通过 Apify API 启动运行 curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~sitemap-url-discovery/runs?token=YOUR_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "domains": [ "https://example.com", "https://competitor.com", "https://news-site.com" ], "maxUrlsPerSite": 10000, "followSitemapIndexes": true, "parseRobotsTxt": true }' # 或通过 MCP 与 AI 代理配合使用: # https://mcp.apify.com?tools=santamaria-automations/sitemap-url-discovery
| 字段 | 类型 | 示例 |
|---|---|---|
| source_domain | string | example.com |
| sitemap_url | string | https://example.com/sitemap.xml |
| total_urls | integer | 12,486 |
| url | string | https://example.com/blog/post-1 |
| lastmod | string | 2026-06-10T14:00:00Z |
| changefreq | string | weekly |
| priority | number | 0.8 |
| robots_sitemaps | array | ["https://example.com/sitemap.xml"] |
| is_gzipped | boolean | false |
| scraped_at | string | 2026-06-13T10:15:42Z |