Plaintext, seitenweisen Inhalt und vollständige Metadaten aus jeder PDF-URL ziehen. Liefert Titel, Autor, Erstellungsdatum, Seitenzahl, Zeichenanzahl sowie Flags für gescannte (Bild-only) oder verschlüsselte Dokumente. Für Bulk gebaut: 10.000 URLs rein, strukturierte Zeilen raus. Ideal für Legal-Discovery, RAG-Ingestion, Compliance-Audits und Dokumenten-Workflow-Automatisierung.
# Einen Lauf über die Apify-API starten curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~pdf-extractor/runs?token=YOUR_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "pdfUrls": [ "https://example.com/report-2026.pdf", "https://example.com/contract-v3.pdf", "https://example.com/whitepaper.pdf" ], "extractText": true, "extractMetadata": true, "perPageText": false }' # Oder mit KI-Agenten via MCP verwenden: # https://mcp.apify.com?tools=santamaria-automations/pdf-extractor
| Feld | Typ | Beispiel |
|---|---|---|
| source_url | string | https://example.com/report.pdf |
| title | string | Jahresbericht 2026 |
| author | string | Acme GmbH |
| page_count | integer | 142 |
| char_count | integer | 284.512 |
| text | string | Executive Summary... |
| creation_date | string | 2026-01-15T09:30:00Z |
| is_scanned | boolean | false |
| is_encrypted | boolean | false |
| file_size_bytes | integer | 4.218.940 |