从任意网站提取纯净 Markdown 与纯文本,针对 AI 摄取、RAG 管线与 LLM 上下文窗口优化。Readability 风格主体内容提取去除导航、页脚、侧栏与广告,让您的 AI 只获得有价值的内容。Flat fetch(深度=0)适用于 URL 列表,或最大深度 5 整站爬取。最多 20 个并行 worker。
# 直接抓取一组文档页(不爬取) curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~website-content-crawler/runs?token=YOUR_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "startUrls": [ "https://docs.example.com/api/overview", "https://docs.example.com/api/authentication" ], "maxDepth": 0, "extractMainContent": true }' # 或通过 MCP 与 AI 智能体一起使用: # https://mcp.apify.com?tools=santamaria-automations/website-content-crawler
| 字段 | 类型 | 描述 |
|---|---|---|
| url | string | 已爬取页面 URL |
| title | string | 页面标题 |
| description | string | Meta description |
| markdown | string | 纯净 Markdown,最多 50,000 字符 |
| text | string | 纯文本,最多 10,000 字符 |
| word_count | integer | 纯文本字数 |
| content_type | string | article、blog、documentation、generic |
| depth | integer | 爬取深度(0 = 起始 URL) |
| status_code | integer | HTTP 状态码 |
| scraped_at | string | ISO 8601 UTC 时间戳 |