Convertissez toute page HTML en Markdown propre, prêt pour LLM. Supprime le chrome (nav, pubs, barres latérales), conserve titres, tableaux, blocs de code, images avec alt et liens. Retourne titre de page, contenu principal en Markdown, nombre de mots, tableaux d'images et de liens extraits, et l'URL principale inférée. Construit pour le batch : 10 000 URLs d'articles en entrée, une ligne par page en sortie. Parfait pour corpus d'entraînement LLM, ingestion RAG, miroirs de documentation et surveillance de contenu.
# Lancer une exécution via l'API Apify curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~html-to-markdown/runs?token=YOUR_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "urls": [ "https://blog.example.com/post-1", "https://docs.example.com/getting-started", "https://news.example.com/article-2026" ], "extractImages": true, "extractLinks": true, "mainContentOnly": true }' # Ou utiliser avec des agents IA via MCP : # https://mcp.apify.com?tools=santamaria-automations/html-to-markdown
| Champ | Type | Exemple |
|---|---|---|
| source_url | string | https://blog.example.com/post-1 |
| title | string | Construire des pipelines RAG |
| main_content | string | # Construire des pipelines RAG\n\nUn guide pratique... |
| word_count | integer | 1 842 |
| reading_time_minutes | integer | 8 |
| language | string | fr |
| canonical_url | string | https://blog.example.com/post-1 |
| images | array | [{"src":"...","alt":"diagramme"}] |
| links | array | [{"href":"...","text":"docs"}] |
| scraped_at | string | 2026-06-13T10:15:42Z |