从任意 PDF URL 提取纯文本、逐页内容和完整元数据。返回标题、作者、创建日期、页数、字符总数,以及扫描(纯图像)或加密文档标识。为批量而生:输入 10,000 URL,返回结构化数据行。适用于法律电子取证、RAG 数据摄入、合规审计和文档工作流自动化。
# 通过 Apify API 启动运行 curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~pdf-extractor/runs?token=YOUR_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "pdfUrls": [ "https://example.com/report-2026.pdf", "https://example.com/contract-v3.pdf", "https://example.com/whitepaper.pdf" ], "extractText": true, "extractMetadata": true, "perPageText": false }' # 或通过 MCP 与 AI 代理配合使用: # https://mcp.apify.com?tools=santamaria-automations/pdf-extractor
| 字段 | 类型 | 示例 |
|---|---|---|
| source_url | string | https://example.com/report.pdf |
| title | string | 2026 年度报告 |
| author | string | Acme 公司 |
| page_count | integer | 142 |
| char_count | integer | 284,512 |
| text | string | 执行摘要... |
| creation_date | string | 2026-01-15T09:30:00Z |
| is_scanned | boolean | false |
| is_encrypted | boolean | false |
| file_size_bytes | integer | 4,218,940 |