Website Content Crawler : Markdown propre pour pipelines IA et RAG

Extraire un Markdown propre et du texte brut de tout site web, optimisé pour l'ingestion IA, les pipelines RAG et les fenêtres de contexte LLM. L'extraction du contenu principal façon Readability supprime navigation, footers, sidebars et publicités, pour que votre IA ne reçoive que le contenu utile. Mode flat fetch (profondeur=0) pour listes d'URL ou crawl complet jusqu'à profondeur 5. Jusqu'à 20 workers parallèles.

Ouvrir sur Apify → Essayer maintenant
Tarif
$1/1k pages + $0,25 start
RAM
128 Mo
Sortie
Markdown + texte
Concurrence
Jusqu'à 20 workers
Profondeur
0 à 5 niveaux
Moteur
Go HTTP-only

Ce que vous obtenez par page

Cas d'usage principaux

Exemple API

# Récupérer une liste de pages de documentation (sans crawl)
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~website-content-crawler/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "startUrls": [
      "https://docs.example.com/api/overview",
      "https://docs.example.com/api/authentication"
    ],
    "maxDepth": 0,
    "extractMainContent": true
  }'

# Ou utiliser avec agents IA via MCP :
# https://mcp.apify.com?tools=santamaria-automations/website-content-crawler

Intégrations

Champs de sortie

ChampTypeDescription
urlstringURL de la page crawlée
titlestringTitre (og:title ou title HTML)
descriptionstringMeta description
markdownstringMarkdown propre, jusqu'à 50 000 caractères
textstringTexte brut, jusqu'à 10 000 caractères
word_countintegerNombre de mots du texte brut
content_typestringarticle, blog, documentation, generic
depthintegerProfondeur de crawl (0 = URL de départ)
status_codeintegerCode HTTP
scraped_atstringHorodatage ISO 8601 UTC

Actors associés

Ouvrir sur Apify → Essayer maintenant (offre gratuite disponible)