Website Content Crawler: Sauberes Markdown für KI- und RAG-Pipelines
Sauberes Markdown und Klartext aus jeder Website extrahieren, optimiert für KI-Aufnahme, RAG-Pipelines und LLM-Kontextfenster. Readability-Style Hauptinhaltsextraktion entfernt Navigation, Footer, Sidebar und Anzeigen, sodass Ihre KI nur den relevanten Inhalt erhält. Flat Fetch (Tiefe=0) für URL-Listen oder ganze Sites bis Tiefe 5 crawlen. Bis zu 20 parallele Worker.
Preis
$1/1k Seiten + $0,25 Start
Crawl-Tiefe
0 bis 5 Ebenen
Was Sie pro Seite erhalten
- Sauberes Markdown: bis zu 50.000 Zeichen mit erhaltenen Überschriften, Listen, Links und Codeblöcken
- Klartext: bis zu 10.000 Zeichen, gesamtes HTML entfernt, fertig für Embeddings
- Seitenmetadaten: URL, Titel (og:title oder HTML-Titel), Meta-Description, Wortanzahl
- Inhaltstyp-Erkennung: article, blog, documentation oder generic, nützlich fürs RAG-Routing
- Crawl-Kontext: Tiefe, Start-URL, gefundene interne Links, HTTP-Statuscode, scraped_at Zeitstempel
Hauptanwendungsfälle
- RAG-Wissensbasen. Unternehmensdokumentationen crawlen und sauberes Markdown in Vector Stores einspeisen
- LLM-Grounding. Agenten mit aktuellen Inhalten aus Blogs, Nachrichten und Produktdokumentation versorgen
- KI-Zusammenfassungs-Pipelines. Artikeltext für Batch-Zusammenfassung oder Themen-Clustering extrahieren
- Wettbewerbs-Content-Analyse. Wettbewerber-Blogs und Produktseiten für strukturierte Analyse crawlen
- Offline-Lektüre. Webseiten en masse zu Markdown konvertieren für Archiv oder Static-Site-Rebuilds
- ML-Trainingsdaten. Saubere Textkorpora aus einer kuratierten Liste autoritativer Quellen aufbauen
API-Beispiel
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~website-content-crawler/runs?token=YOUR_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"startUrls": [
"https://docs.example.com/api/overview",
"https://docs.example.com/api/authentication"
],
"maxDepth": 0,
"extractMainContent": true
}'
Integrationen
- n8n, Make, Zapier: Crawls auslösen und Markdown in Ihre Vector-DB pushen
- KI-Agenten (MCP): Claude Desktop, Cursor, VS Code, LangChain, LlamaIndex
- Python, Node.js: Apify SDK für programmatischen Zugriff
- Pinecone, Weaviate, Qdrant: Markdown direkt in Ihre Embedding-Pipeline leiten
Output-Felder
| Feld | Typ | Beschreibung |
| url | string | URL der gecrawlten Seite |
| title | string | Seitentitel (og:title oder HTML-Titel) |
| description | string | Meta-Description |
| markdown | string | Sauberes Markdown, bis 50.000 Zeichen |
| text | string | Klartext, bis 10.000 Zeichen |
| word_count | integer | Wortanzahl des Klartextes |
| content_type | string | article, blog, documentation, generic |
| depth | integer | Crawl-Tiefe (0 = Start-URL) |
| status_code | integer | HTTP-Statuscode |
| scraped_at | string | ISO 8601 UTC-Zeitstempel |
Verwandte Actors