网站内容爬虫:面向 AI 与 RAG 管线的纯净 Markdown

从任意网站提取纯净 Markdown 与纯文本,针对 AI 摄取、RAG 管线与 LLM 上下文窗口优化。Readability 风格主体内容提取去除导航、页脚、侧栏与广告,让您的 AI 只获得有价值的内容。Flat fetch(深度=0)适用于 URL 列表,或最大深度 5 整站爬取。最多 20 个并行 worker。

在 Apify 打开 → 立即试用
定价
$1/千页 + $0.25 启动
内存
128MB
输出
Markdown + 文本
并发
最多 20 worker
爬取深度
0 至 5 层
引擎
HTTP-only Go

每页可获得

主要用例

API 示例

# 直接抓取一组文档页(不爬取)
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~website-content-crawler/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "startUrls": [
      "https://docs.example.com/api/overview",
      "https://docs.example.com/api/authentication"
    ],
    "maxDepth": 0,
    "extractMainContent": true
  }'

# 或通过 MCP 与 AI 智能体一起使用:
# https://mcp.apify.com?tools=santamaria-automations/website-content-crawler

集成

输出字段

字段类型描述
urlstring已爬取页面 URL
titlestring页面标题
descriptionstringMeta description
markdownstring纯净 Markdown,最多 50,000 字符
textstring纯文本,最多 10,000 字符
word_countinteger纯文本字数
content_typestringarticle、blog、documentation、generic
depthinteger爬取深度(0 = 起始 URL)
status_codeintegerHTTP 状态码
scraped_atstringISO 8601 UTC 时间戳

相关 Actor

在 Apify 打开 → 立即试用(提供免费额度)