PDF-Text-Extractor: Bulk PDF zu Text und Metadaten, $1 pro 1.000 PDFs

Plaintext, seitenweisen Inhalt und vollständige Metadaten aus jeder PDF-URL ziehen. Liefert Titel, Autor, Erstellungsdatum, Seitenzahl, Zeichenanzahl sowie Flags für gescannte (Bild-only) oder verschlüsselte Dokumente. Für Bulk gebaut: 10.000 URLs rein, strukturierte Zeilen raus. Ideal für Legal-Discovery, RAG-Ingestion, Compliance-Audits und Dokumenten-Workflow-Automatisierung.

Auf Apify öffnen → Jetzt testen
Preise
$0,001/PDF
RAM
128MB
Abdeckung
Beliebige URL
Ausgabefelder
12+
Proxy
Apify Datacenter
Technik
HTTP + pdfcpu

Was Sie erhalten

Wichtige Anwendungsfälle

API-Beispiel

# Einen Lauf über die Apify-API starten
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~pdf-extractor/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "pdfUrls": [
      "https://example.com/report-2026.pdf",
      "https://example.com/contract-v3.pdf",
      "https://example.com/whitepaper.pdf"
    ],
    "extractText": true,
    "extractMetadata": true,
    "perPageText": false
  }'

# Oder mit KI-Agenten via MCP verwenden:
# https://mcp.apify.com?tools=santamaria-automations/pdf-extractor

Integrationen

Ausgabefelder

FeldTypBeispiel
source_urlstringhttps://example.com/report.pdf
titlestringJahresbericht 2026
authorstringAcme GmbH
page_countinteger142
char_countinteger284.512
textstringExecutive Summary...
creation_datestring2026-01-15T09:30:00Z
is_scannedbooleanfalse
is_encryptedbooleanfalse
file_size_bytesinteger4.218.940

Verwandte Aktoren

Auf Apify öffnen → Jetzt testen (kostenloses Kontingent verfügbar)