PDF-Text-Extractor: Bulk PDF zu Text und Metadaten, $1 pro 1.000 PDFs

Plaintext, seitenweisen Inhalt und vollständige Metadaten aus jeder PDF-URL ziehen. Liefert Titel, Autor, Erstellungsdatum, Seitenzahl, Zeichenanzahl sowie Flags für gescannte (Bild-only) oder verschlüsselte Dokumente. Für Bulk gebaut: 10.000 URLs rein, strukturierte Zeilen raus. Ideal für Legal-Discovery, RAG-Ingestion, Compliance-Audits und Dokumenten-Workflow-Automatisierung.

Auf Apify öffnen → Jetzt testen

Preise

$0,001/PDF

RAM

128MB

Abdeckung

Beliebige URL

Ausgabefelder

12+

Proxy

Apify Datacenter

Technik

HTTP + pdfcpu

Was Sie erhalten

Seitentext: vollständig extrahierter Text plus Per-Page-Array für paginierte Workflows
Metadaten: title, author, subject, creator, producer, creation_date, modification_date
Statistiken: page_count, char_count, word_count, file_size_bytes
Flags: is_scanned (Bild-only-PDF), is_encrypted, is_form
Quelle: source_url, content_type, http_status, scraped_at

Wichtige Anwendungsfälle

Legal Discovery. Bulk-Textextraktion aus Gerichtsakten, Verträgen und Schriftsätzen für Volltextsuche und Review
RAG-Ingestion. PDF-Reports, Whitepaper und Manuals direkt in Vektordatenbanken einspeisen
Compliance-Audits. Tausende Policy-PDFs nach Klauseln, Unterschriften oder regulatorischen Stichwörtern durchsuchen
Research-Aggregation. Abstracts, Autoren und Volltext aus akademischen Preprint-URLs ziehen
Rechnungs- und Beleg-Parsing. Strukturierten Text aus Lieferanten-PDFs in der Kreditorenbuchhaltung extrahieren

API-Beispiel

# Einen Lauf über die Apify-API starten
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~pdf-extractor/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "pdfUrls": [
      "https://example.com/report-2026.pdf",
      "https://example.com/contract-v3.pdf",
      "https://example.com/whitepaper.pdf"
    ],
    "extractText": true,
    "extractMetadata": true,
    "perPageText": false
  }'

# Oder mit KI-Agenten via MCP verwenden:
# https://mcp.apify.com?tools=santamaria-automations/pdf-extractor

Integrationen

n8n, Make, Zapier: Läufe auslösen und Datensätze per Webhook verarbeiten
KI-Agenten (MCP): Claude Desktop, Cursor, VS Code, LangChain, LlamaIndex
Python, Node.js: Apify SDK für programmatischen Zugriff
Google Sheets, Airtable: Bulk-Eingaben rein, strukturierte Daten raus

Ausgabefelder

Feld	Typ	Beispiel
source_url	string	https://example.com/report.pdf
title	string	Jahresbericht 2026
author	string	Acme GmbH
page_count	integer	142
char_count	integer	284.512
text	string	Executive Summary...
creation_date	string	2026-01-15T09:30:00Z
is_scanned	boolean	false
is_encrypted	boolean	false
file_size_bytes	integer	4.218.940

PDF-Text-Extractor: Bulk PDF zu Text und Metadaten, $1 pro 1.000 PDFs

Was Sie erhalten

Wichtige Anwendungsfälle

API-Beispiel

Integrationen

Ausgabefelder

Verwandte Aktoren