Website Content Crawler : Markdown propre pour pipelines IA et RAG
Extraire un Markdown propre et du texte brut de tout site web, optimisé pour l'ingestion IA, les pipelines RAG et les fenêtres de contexte LLM. L'extraction du contenu principal façon Readability supprime navigation, footers, sidebars et publicités, pour que votre IA ne reçoive que le contenu utile. Mode flat fetch (profondeur=0) pour listes d'URL ou crawl complet jusqu'à profondeur 5. Jusqu'à 20 workers parallèles.
Tarif
$1/1k pages + $0,25 start
Concurrence
Jusqu'à 20 workers
Ce que vous obtenez par page
- Markdown propre : jusqu'à 50 000 caractères avec titres, listes, liens et blocs de code préservés
- Texte brut : jusqu'à 10 000 caractères, tout HTML supprimé, prêt pour embeddings
- Métadonnées de page : URL, titre (og:title ou title HTML), meta description, nombre de mots
- Détection du type de contenu : article, blog, documentation ou generic, utile pour le routage RAG
- Contexte de crawl : profondeur, URL de départ, liens internes découverts, code HTTP, scraped_at
Cas d'usage principaux
- Bases de connaissances RAG. Crawler les sites de documentation et injecter le Markdown propre dans les vector stores
- Grounding LLM. Alimenter les agents en contenu à jour depuis blogs, actualités et docs produits
- Pipelines de résumé IA. Extraire le texte d'articles pour résumé en lot ou clustering thématique
- Analyse de contenu concurrent. Crawler les blogs et pages produit concurrents pour analyse structurée
- Lecture hors ligne. Convertir en lot les pages web en Markdown pour archivage ou rebuild statique
- Données d'entraînement ML. Constituer des corpus propres depuis une liste curée de sources autorisées
Exemple API
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~website-content-crawler/runs?token=YOUR_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"startUrls": [
"https://docs.example.com/api/overview",
"https://docs.example.com/api/authentication"
],
"maxDepth": 0,
"extractMainContent": true
}'
Intégrations
- n8n, Make, Zapier : déclencher les crawls et pousser le Markdown vers votre base vectorielle
- Agents IA (MCP) : Claude Desktop, Cursor, VS Code, LangChain, LlamaIndex
- Python, Node.js : SDK Apify pour accès programmatique
- Pinecone, Weaviate, Qdrant : alimenter directement votre pipeline d'embeddings
Champs de sortie
| Champ | Type | Description |
| url | string | URL de la page crawlée |
| title | string | Titre (og:title ou title HTML) |
| description | string | Meta description |
| markdown | string | Markdown propre, jusqu'à 50 000 caractères |
| text | string | Texte brut, jusqu'à 10 000 caractères |
| word_count | integer | Nombre de mots du texte brut |
| content_type | string | article, blog, documentation, generic |
| depth | integer | Profondeur de crawl (0 = URL de départ) |
| status_code | integer | Code HTTP |
| scraped_at | string | Horodatage ISO 8601 UTC |
Actors associés