HTML zu Markdown Converter: Bulk Webseiten zu sauberem MD, $1 pro 1.000 Seiten

Jede HTML-Seite in sauberes, LLM-fertiges Markdown konvertieren. Entfernt Chrome (Navigation, Werbung, Sidebars), erhält Überschriften, Tabellen, fenced Code-Blöcke, Bilder mit Alt-Text und Links. Liefert Seitentitel, Hauptinhalt als Markdown, Wortanzahl, extrahierte Bild- und Link-Arrays sowie die abgeleitete Main-URL. Für Batch gebaut: 10.000 Artikel-URLs rein, eine Zeile pro Seite raus. Perfekt für LLM-Training-Korpora, RAG-Ingestion, Dokumentations-Spiegel und Content-Monitoring.

Auf Apify öffnen → Jetzt testen

Preise

$0,001/Seite

RAM

128MB

Abdeckung

Beliebige URL

Ausgabefelder

10+

Proxy

Apify Datacenter

Technik

HTTP + Readability

Was Sie erhalten

Sauberes Markdown: main_content als GitHub-flavored Markdown, ohne Chrome
Struktur erhalten: Überschriften, Listen, Tabellen, fenced Code-Blöcke, Blockquotes
Extrahierte Assets: images[] mit Alt-Text, links[] mit Anchor und href
Statistiken: word_count, char_count, reading_time_minutes
Metadaten: title, meta_description, canonical_url, language, scraped_at

Wichtige Anwendungsfälle

LLM-Training-Korpora. Tausende Blogposts und Docs in sauberes Markdown für Fine-Tuning konvertieren
RAG-Ingestion. Bereinigten Seiteninhalt in Vektordatenbanken einspeisen, ohne HTML-Rauschen
Dokumentations-Spiegel. Wettbewerber-Docs oder Knowledge Bases in strukturiertes Markdown snapshotten
Content-Monitoring. Änderungen an wichtigen Seiten über Zeit mit diff-freundlichem Markdown verfolgen
KI-Agent-Kontext. Agenten lesbaren Seiteninhalt statt rohem HTML geben, um Tokens zu sparen

API-Beispiel

# Einen Lauf über die Apify-API starten
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~html-to-markdown/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": [
      "https://blog.example.com/post-1",
      "https://docs.example.com/getting-started",
      "https://news.example.com/article-2026"
    ],
    "extractImages": true,
    "extractLinks": true,
    "mainContentOnly": true
  }'

# Oder mit KI-Agenten via MCP verwenden:
# https://mcp.apify.com?tools=santamaria-automations/html-to-markdown

Integrationen

n8n, Make, Zapier: Läufe auslösen und Datensätze per Webhook verarbeiten
KI-Agenten (MCP): Claude Desktop, Cursor, VS Code, LangChain, LlamaIndex
Python, Node.js: Apify SDK für programmatischen Zugriff
Google Sheets, Airtable: Bulk-Eingaben rein, strukturierte Daten raus

Ausgabefelder

Feld	Typ	Beispiel
source_url	string	https://blog.example.com/post-1
title	string	RAG-Pipelines bauen
main_content	string	# RAG-Pipelines bauen\n\nEin Praxisleitfaden...
word_count	integer	1.842
reading_time_minutes	integer	8
language	string	de
canonical_url	string	https://blog.example.com/post-1
images	array	[{"src":"...","alt":"Diagramm"}]
links	array	[{"href":"...","text":"docs"}]
scraped_at	string	2026-06-13T10:15:42Z

HTML zu Markdown Converter: Bulk Webseiten zu sauberem MD, $1 pro 1.000 Seiten

Was Sie erhalten

Wichtige Anwendungsfälle

API-Beispiel

Integrationen

Ausgabefelder

Verwandte Aktoren