Convertisseur HTML vers Markdown : Bulk pages web vers MD propre, 1$ pour 1 000 pages

Convertissez toute page HTML en Markdown propre, prêt pour LLM. Supprime le chrome (nav, pubs, barres latérales), conserve titres, tableaux, blocs de code, images avec alt et liens. Retourne titre de page, contenu principal en Markdown, nombre de mots, tableaux d'images et de liens extraits, et l'URL principale inférée. Construit pour le batch : 10 000 URLs d'articles en entrée, une ligne par page en sortie. Parfait pour corpus d'entraînement LLM, ingestion RAG, miroirs de documentation et surveillance de contenu.

Ouvrir sur Apify → Essayez maintenant

Tarif

0,001$/page

RAM

128MB

Couverture

Toute URL

Champs de sortie

10+

Proxy

Apify datacenter

Tech

HTTP + Readability

Ce que vous obtenez

Markdown propre : main_content en Markdown GitHub-flavored, sans chrome
Structure préservée : titres, listes, tableaux, blocs de code, citations
Assets extraits : images[] avec alt text, links[] avec anchor et href
Statistiques : word_count, char_count, reading_time_minutes
Métadonnées : title, meta_description, canonical_url, language, scraped_at

Cas d'usage principaux

Corpus d'entraînement LLM. Convertir des milliers de billets de blog et docs en markdown propre pour le fine-tuning
Ingestion RAG. Envoyer le contenu nettoyé dans des bases vectorielles sans bruit HTML
Miroirs de documentation. Capturer docs concurrents ou bases de connaissances en markdown structuré
Surveillance de contenu. Suivre les changements de pages clés dans le temps avec markdown diff-friendly
Contexte pour agents IA. Donner aux agents un contenu lisible plutôt que du HTML brut pour économiser des tokens

Exemple d'API

# Lancer une exécution via l'API Apify
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~html-to-markdown/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": [
      "https://blog.example.com/post-1",
      "https://docs.example.com/getting-started",
      "https://news.example.com/article-2026"
    ],
    "extractImages": true,
    "extractLinks": true,
    "mainContentOnly": true
  }'

# Ou utiliser avec des agents IA via MCP :
# https://mcp.apify.com?tools=santamaria-automations/html-to-markdown

Intégrations

n8n, Make, Zapier : déclencher des exécutions et traiter les enregistrements via webhook
Agents IA (MCP) : Claude Desktop, Cursor, VS Code, LangChain, LlamaIndex
Python, Node.js : SDK Apify pour l'accès programmatique
Google Sheets, Airtable : entrées en masse, données structurées en sortie

Champs de sortie

Champ	Type	Exemple
source_url	string	https://blog.example.com/post-1
title	string	Construire des pipelines RAG
main_content	string	# Construire des pipelines RAG\n\nUn guide pratique...
word_count	integer	1 842
reading_time_minutes	integer	8
language	string	fr
canonical_url	string	https://blog.example.com/post-1
images	array	[{"src":"...","alt":"diagramme"}]
links	array	[{"href":"...","text":"docs"}]
scraped_at	string	2026-06-13T10:15:42Z

Acteurs associés

PDF Text Extractor: complément PDF pour les mêmes pipelines de contenu
SEO Metadata Extractor: extraire les métadonnées SEO en parallèle du markdown
Sitemap URL Discovery: énumérer chaque URL d'un site avant la conversion en masse

Ouvrir sur Apify → Essayez maintenant (version gratuite disponible)