Extracteur de texte PDF : Bulk PDF vers texte et métadonnées, 1$ pour 1 000 PDF

Extrayez le texte brut, le contenu page par page et toutes les métadonnées de n'importe quelle URL PDF. Retourne titre, auteur, date de création, nombre de pages, nombre de caractères, et indicateurs pour PDF scannés (image seule) ou chiffrés. Construit pour le bulk : passez-lui 10 000 URLs et il retourne des lignes structurées. Idéal pour discovery juridique, ingestion RAG, audits de conformité et automatisation de workflows documentaires.

Ouvrir sur Apify → Essayez maintenant
Tarif
0,001$/PDF
RAM
128MB
Couverture
Toute URL
Champs de sortie
12+
Proxy
Apify datacenter
Tech
HTTP + pdfcpu

Ce que vous obtenez

Cas d'usage principaux

Exemple d'API

# Lancer une exécution via l'API Apify
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~pdf-extractor/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "pdfUrls": [
      "https://example.com/report-2026.pdf",
      "https://example.com/contract-v3.pdf",
      "https://example.com/whitepaper.pdf"
    ],
    "extractText": true,
    "extractMetadata": true,
    "perPageText": false
  }'

# Ou utiliser avec des agents IA via MCP :
# https://mcp.apify.com?tools=santamaria-automations/pdf-extractor

Intégrations

Champs de sortie

ChampTypeExemple
source_urlstringhttps://example.com/report.pdf
titlestringRapport Annuel 2026
authorstringAcme SA
page_countinteger142
char_countinteger284 512
textstringRésumé Exécutif...
creation_datestring2026-01-15T09:30:00Z
is_scannedbooleanfalse
is_encryptedbooleanfalse
file_size_bytesinteger4 218 940

Acteurs associés

Ouvrir sur Apify → Essayez maintenant (version gratuite disponible)