Website Content Crawler : Markdown propre pour pipelines IA et RAG

Extraire un Markdown propre et du texte brut de tout site web, optimisé pour l'ingestion IA, les pipelines RAG et les fenêtres de contexte LLM. L'extraction du contenu principal façon Readability supprime navigation, footers, sidebars et publicités, pour que votre IA ne reçoive que le contenu utile. Mode flat fetch (profondeur=0) pour listes d'URL ou crawl complet jusqu'à profondeur 5. Jusqu'à 20 workers parallèles.

Ouvrir sur Apify → Essayer maintenant

Tarif

$1/1k pages + $0,25 start

RAM

128 Mo

Sortie

Markdown + texte

Concurrence

Jusqu'à 20 workers

Profondeur

0 à 5 niveaux

Moteur

Go HTTP-only

Ce que vous obtenez par page

Markdown propre : jusqu'à 50 000 caractères avec titres, listes, liens et blocs de code préservés
Texte brut : jusqu'à 10 000 caractères, tout HTML supprimé, prêt pour embeddings
Métadonnées de page : URL, titre (og:title ou title HTML), meta description, nombre de mots
Détection du type de contenu : article, blog, documentation ou generic, utile pour le routage RAG
Contexte de crawl : profondeur, URL de départ, liens internes découverts, code HTTP, scraped_at

Cas d'usage principaux

Bases de connaissances RAG. Crawler les sites de documentation et injecter le Markdown propre dans les vector stores
Grounding LLM. Alimenter les agents en contenu à jour depuis blogs, actualités et docs produits
Pipelines de résumé IA. Extraire le texte d'articles pour résumé en lot ou clustering thématique
Analyse de contenu concurrent. Crawler les blogs et pages produit concurrents pour analyse structurée
Lecture hors ligne. Convertir en lot les pages web en Markdown pour archivage ou rebuild statique
Données d'entraînement ML. Constituer des corpus propres depuis une liste curée de sources autorisées

Exemple API

# Récupérer une liste de pages de documentation (sans crawl)
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~website-content-crawler/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "startUrls": [
      "https://docs.example.com/api/overview",
      "https://docs.example.com/api/authentication"
    ],
    "maxDepth": 0,
    "extractMainContent": true
  }'

# Ou utiliser avec agents IA via MCP :
# https://mcp.apify.com?tools=santamaria-automations/website-content-crawler

Intégrations

n8n, Make, Zapier : déclencher les crawls et pousser le Markdown vers votre base vectorielle
Agents IA (MCP) : Claude Desktop, Cursor, VS Code, LangChain, LlamaIndex
Python, Node.js : SDK Apify pour accès programmatique
Pinecone, Weaviate, Qdrant : alimenter directement votre pipeline d'embeddings

Champs de sortie

Champ	Type	Description
url	string	URL de la page crawlée
title	string	Titre (og:title ou title HTML)
description	string	Meta description
markdown	string	Markdown propre, jusqu'à 50 000 caractères
text	string	Texte brut, jusqu'à 10 000 caractères
word_count	integer	Nombre de mots du texte brut
content_type	string	article, blog, documentation, generic
depth	integer	Profondeur de crawl (0 = URL de départ)
status_code	integer	Code HTTP
scraped_at	string	Horodatage ISO 8601 UTC

Actors associés

HTML to Markdown : conversion HTML d'une seule page sans crawl
Website Email Scraper : même moteur de crawl, sortie contacts
Sitemap URL Discovery : alimente les URLs de départ depuis robots.txt et sitemap

Ouvrir sur Apify → Essayer maintenant (offre gratuite disponible)