Extrayez le texte brut, le contenu page par page et toutes les métadonnées de n'importe quelle URL PDF. Retourne titre, auteur, date de création, nombre de pages, nombre de caractères, et indicateurs pour PDF scannés (image seule) ou chiffrés. Construit pour le bulk : passez-lui 10 000 URLs et il retourne des lignes structurées. Idéal pour discovery juridique, ingestion RAG, audits de conformité et automatisation de workflows documentaires.
# Lancer une exécution via l'API Apify curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~pdf-extractor/runs?token=YOUR_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "pdfUrls": [ "https://example.com/report-2026.pdf", "https://example.com/contract-v3.pdf", "https://example.com/whitepaper.pdf" ], "extractText": true, "extractMetadata": true, "perPageText": false }' # Ou utiliser avec des agents IA via MCP : # https://mcp.apify.com?tools=santamaria-automations/pdf-extractor
| Champ | Type | Exemple |
|---|---|---|
| source_url | string | https://example.com/report.pdf |
| title | string | Rapport Annuel 2026 |
| author | string | Acme SA |
| page_count | integer | 142 |
| char_count | integer | 284 512 |
| text | string | Résumé Exécutif... |
| creation_date | string | 2026-01-15T09:30:00Z |
| is_scanned | boolean | false |
| is_encrypted | boolean | false |
| file_size_bytes | integer | 4 218 940 |