Jede HTML-Seite in sauberes, LLM-fertiges Markdown konvertieren. Entfernt Chrome (Navigation, Werbung, Sidebars), erhält Überschriften, Tabellen, fenced Code-Blöcke, Bilder mit Alt-Text und Links. Liefert Seitentitel, Hauptinhalt als Markdown, Wortanzahl, extrahierte Bild- und Link-Arrays sowie die abgeleitete Main-URL. Für Batch gebaut: 10.000 Artikel-URLs rein, eine Zeile pro Seite raus. Perfekt für LLM-Training-Korpora, RAG-Ingestion, Dokumentations-Spiegel und Content-Monitoring.
# Einen Lauf über die Apify-API starten curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~html-to-markdown/runs?token=YOUR_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "urls": [ "https://blog.example.com/post-1", "https://docs.example.com/getting-started", "https://news.example.com/article-2026" ], "extractImages": true, "extractLinks": true, "mainContentOnly": true }' # Oder mit KI-Agenten via MCP verwenden: # https://mcp.apify.com?tools=santamaria-automations/html-to-markdown
| Feld | Typ | Beispiel |
|---|---|---|
| source_url | string | https://blog.example.com/post-1 |
| title | string | RAG-Pipelines bauen |
| main_content | string | # RAG-Pipelines bauen\n\nEin Praxisleitfaden... |
| word_count | integer | 1.842 |
| reading_time_minutes | integer | 8 |
| language | string | de |
| canonical_url | string | https://blog.example.com/post-1 |
| images | array | [{"src":"...","alt":"Diagramm"}] |
| links | array | [{"href":"...","text":"docs"}] |
| scraped_at | string | 2026-06-13T10:15:42Z |