HTML 转 Markdown 转换器:批量网页转干净 MD,每 1,000 页 $1

将任意 HTML 页面转换为干净、LLM 就绪的 Markdown。剥离非主体(导航、广告、侧边栏),保留标题、表格、围栏代码块、带 alt 的图片和链接。返回页面标题、主内容(Markdown 格式)、字数、提取的图片和链接数组,以及推断的主 URL。为批量而生:输入 10,000 文章 URL,每页一行返回。适用于 LLM 训练语料、RAG 数据摄入、文档镜像和内容监控。

在 Apify 上打开 → 立即试用
价格
$0.001/页
内存
128MB
覆盖
任意 URL
输出字段
10+
代理
Apify 数据中心
技术
HTTP + Readability

您能获得什么

主要使用场景

API 示例

# 通过 Apify API 启动运行
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~html-to-markdown/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "urls": [
      "https://blog.example.com/post-1",
      "https://docs.example.com/getting-started",
      "https://news.example.com/article-2026"
    ],
    "extractImages": true,
    "extractLinks": true,
    "mainContentOnly": true
  }'

# 或通过 MCP 与 AI 代理配合使用:
# https://mcp.apify.com?tools=santamaria-automations/html-to-markdown

集成

输出字段

字段类型示例
source_urlstringhttps://blog.example.com/post-1
titlestring构建 RAG 管道
main_contentstring# 构建 RAG 管道\n\n实用指南...
word_countinteger1,842
reading_time_minutesinteger8
languagestringzh
canonical_urlstringhttps://blog.example.com/post-1
imagesarray[{"src":"...","alt":"示意图"}]
linksarray[{"href":"...","text":"文档"}]
scraped_atstring2026-06-13T10:15:42Z

相关 Actor

在 Apify 上打开 → 立即试用(免费套餐可用)