Website Content Crawler: Sauberes Markdown für KI- und RAG-Pipelines

Sauberes Markdown und Klartext aus jeder Website extrahieren, optimiert für KI-Aufnahme, RAG-Pipelines und LLM-Kontextfenster. Readability-Style Hauptinhaltsextraktion entfernt Navigation, Footer, Sidebar und Anzeigen, sodass Ihre KI nur den relevanten Inhalt erhält. Flat Fetch (Tiefe=0) für URL-Listen oder ganze Sites bis Tiefe 5 crawlen. Bis zu 20 parallele Worker.

Auf Apify öffnen → Jetzt testen

Preis

$1/1k Seiten + $0,25 Start

RAM

128MB

Output

Markdown + Text

Concurrency

Bis 20 Worker

Crawl-Tiefe

0 bis 5 Ebenen

Engine

HTTP-only Go

Was Sie pro Seite erhalten

Sauberes Markdown: bis zu 50.000 Zeichen mit erhaltenen Überschriften, Listen, Links und Codeblöcken
Klartext: bis zu 10.000 Zeichen, gesamtes HTML entfernt, fertig für Embeddings
Seitenmetadaten: URL, Titel (og:title oder HTML-Titel), Meta-Description, Wortanzahl
Inhaltstyp-Erkennung: article, blog, documentation oder generic, nützlich fürs RAG-Routing
Crawl-Kontext: Tiefe, Start-URL, gefundene interne Links, HTTP-Statuscode, scraped_at Zeitstempel

Hauptanwendungsfälle

RAG-Wissensbasen. Unternehmensdokumentationen crawlen und sauberes Markdown in Vector Stores einspeisen
LLM-Grounding. Agenten mit aktuellen Inhalten aus Blogs, Nachrichten und Produktdokumentation versorgen
KI-Zusammenfassungs-Pipelines. Artikeltext für Batch-Zusammenfassung oder Themen-Clustering extrahieren
Wettbewerbs-Content-Analyse. Wettbewerber-Blogs und Produktseiten für strukturierte Analyse crawlen
Offline-Lektüre. Webseiten en masse zu Markdown konvertieren für Archiv oder Static-Site-Rebuilds
ML-Trainingsdaten. Saubere Textkorpora aus einer kuratierten Liste autoritativer Quellen aufbauen

API-Beispiel

# Liste an Dokumentationsseiten direkt abrufen (kein Crawling)
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~website-content-crawler/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "startUrls": [
      "https://docs.example.com/api/overview",
      "https://docs.example.com/api/authentication"
    ],
    "maxDepth": 0,
    "extractMainContent": true
  }'

# Oder mit KI-Agenten via MCP nutzen:
# https://mcp.apify.com?tools=santamaria-automations/website-content-crawler

Integrationen

n8n, Make, Zapier: Crawls auslösen und Markdown in Ihre Vector-DB pushen
KI-Agenten (MCP): Claude Desktop, Cursor, VS Code, LangChain, LlamaIndex
Python, Node.js: Apify SDK für programmatischen Zugriff
Pinecone, Weaviate, Qdrant: Markdown direkt in Ihre Embedding-Pipeline leiten

Output-Felder

Feld	Typ	Beschreibung
url	string	URL der gecrawlten Seite
title	string	Seitentitel (og:title oder HTML-Titel)
description	string	Meta-Description
markdown	string	Sauberes Markdown, bis 50.000 Zeichen
text	string	Klartext, bis 10.000 Zeichen
word_count	integer	Wortanzahl des Klartextes
content_type	string	article, blog, documentation, generic
depth	integer	Crawl-Tiefe (0 = Start-URL)
status_code	integer	HTTP-Statuscode
scraped_at	string	ISO 8601 UTC-Zeitstempel