Website Content Crawler: Sauberes Markdown für KI- und RAG-Pipelines

Sauberes Markdown und Klartext aus jeder Website extrahieren, optimiert für KI-Aufnahme, RAG-Pipelines und LLM-Kontextfenster. Readability-Style Hauptinhaltsextraktion entfernt Navigation, Footer, Sidebar und Anzeigen, sodass Ihre KI nur den relevanten Inhalt erhält. Flat Fetch (Tiefe=0) für URL-Listen oder ganze Sites bis Tiefe 5 crawlen. Bis zu 20 parallele Worker.

Auf Apify öffnen → Jetzt testen
Preis
$1/1k Seiten + $0,25 Start
RAM
128MB
Output
Markdown + Text
Concurrency
Bis 20 Worker
Crawl-Tiefe
0 bis 5 Ebenen
Engine
HTTP-only Go

Was Sie pro Seite erhalten

Hauptanwendungsfälle

API-Beispiel

# Liste an Dokumentationsseiten direkt abrufen (kein Crawling)
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~website-content-crawler/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "startUrls": [
      "https://docs.example.com/api/overview",
      "https://docs.example.com/api/authentication"
    ],
    "maxDepth": 0,
    "extractMainContent": true
  }'

# Oder mit KI-Agenten via MCP nutzen:
# https://mcp.apify.com?tools=santamaria-automations/website-content-crawler

Integrationen

Output-Felder

FeldTypBeschreibung
urlstringURL der gecrawlten Seite
titlestringSeitentitel (og:title oder HTML-Titel)
descriptionstringMeta-Description
markdownstringSauberes Markdown, bis 50.000 Zeichen
textstringKlartext, bis 10.000 Zeichen
word_countintegerWortanzahl des Klartextes
content_typestringarticle, blog, documentation, generic
depthintegerCrawl-Tiefe (0 = Start-URL)
status_codeintegerHTTP-Statuscode
scraped_atstringISO 8601 UTC-Zeitstempel

Verwandte Actors

Auf Apify öffnen → Jetzt testen (Free-Tier verfügbar)