HTML 转 Markdown 转换器：批量网页转干净 MD，每 1,000 页 $1

将任意 HTML 页面转换为干净、LLM 就绪的 Markdown。剥离非主体（导航、广告、侧边栏），保留标题、表格、围栏代码块、带 alt 的图片和链接。返回页面标题、主内容（Markdown 格式）、字数、提取的图片和链接数组，以及推断的主 URL。为批量而生：输入 10,000 文章 URL，每页一行返回。适用于 LLM 训练语料、RAG 数据摄入、文档镜像和内容监控。

在 Apify 上打开 → 立即试用

价格

$0.001/页

内存

128MB

覆盖

任意 URL

输出字段

10+

代理

Apify 数据中心

技术

HTTP + Readability

您能获得什么

干净 Markdown：main_content 为 GitHub 风格 Markdown，无干扰
结构保留：标题、列表、表格、围栏代码块、引用
提取资源：images[] 带 alt 文本，links[] 带锚文本与 href
统计：word_count、char_count、reading_time_minutes
元数据：title、meta_description、canonical_url、language、scraped_at

主要使用场景

LLM 训练语料。将数千篇博客文章和文档转换为干净 markdown 用于微调
RAG 数据摄入。将清洁后的页面内容送入向量数据库，无 HTML 噪声
文档镜像。将竞争对手文档或知识库快照为结构化 markdown
内容监控。使用 diff 友好的 markdown 跨时间追踪重要页面变化
AI 代理上下文。给代理可读页面内容而非原始 HTML，节省 token

API 示例

# 通过 Apify API 启动运行
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~html-to-markdown/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": [
      "https://blog.example.com/post-1",
      "https://docs.example.com/getting-started",
      "https://news.example.com/article-2026"
    ],
    "extractImages": true,
    "extractLinks": true,
    "mainContentOnly": true
  }'

# 或通过 MCP 与 AI 代理配合使用：
# https://mcp.apify.com?tools=santamaria-automations/html-to-markdown

集成

n8n、Make、Zapier：通过 Webhook 触发运行并处理记录
AI 代理 (MCP)：Claude Desktop、Cursor、VS Code、LangChain、LlamaIndex
Python、Node.js：使用 Apify SDK 进行编程访问
Google Sheets、Airtable：批量输入，结构化数据输出

输出字段

字段	类型	示例
source_url	string	https://blog.example.com/post-1
title	string	构建 RAG 管道
main_content	string	# 构建 RAG 管道\n\n实用指南...
word_count	integer	1,842
reading_time_minutes	integer	8
language	string	zh
canonical_url	string	https://blog.example.com/post-1
images	array	[{"src":"...","alt":"示意图"}]
links	array	[{"href":"...","text":"文档"}]
scraped_at	string	2026-06-13T10:15:42Z

HTML 转 Markdown 转换器：批量网页转干净 MD，每 1,000 页 $1

您能获得什么

主要使用场景

API 示例

集成

输出字段

相关 Actor