PDF 文本提取器:批量 PDF 转文本和元数据,每 1,000 PDF $1

从任意 PDF URL 提取纯文本、逐页内容和完整元数据。返回标题、作者、创建日期、页数、字符总数,以及扫描(纯图像)或加密文档标识。为批量而生:输入 10,000 URL,返回结构化数据行。适用于法律电子取证、RAG 数据摄入、合规审计和文档工作流自动化。

在 Apify 上打开 → 立即试用
价格
$0.001/PDF
内存
128MB
覆盖
任意 URL
输出字段
12+
代理
Apify 数据中心
技术
HTTP + pdfcpu

您能获得什么

主要使用场景

API 示例

# 通过 Apify API 启动运行
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~pdf-extractor/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "pdfUrls": [
      "https://example.com/report-2026.pdf",
      "https://example.com/contract-v3.pdf",
      "https://example.com/whitepaper.pdf"
    ],
    "extractText": true,
    "extractMetadata": true,
    "perPageText": false
  }'

# 或通过 MCP 与 AI 代理配合使用:
# https://mcp.apify.com?tools=santamaria-automations/pdf-extractor

集成

输出字段

字段类型示例
source_urlstringhttps://example.com/report.pdf
titlestring2026 年度报告
authorstringAcme 公司
page_countinteger142
char_countinteger284,512
textstring执行摘要...
creation_datestring2026-01-15T09:30:00Z
is_scannedbooleanfalse
is_encryptedbooleanfalse
file_size_bytesinteger4,218,940

相关 Actor

在 Apify 上打开 → 立即试用(免费套餐可用)