Extracteur de texte PDF : Bulk PDF vers texte et métadonnées, 1$ pour 1 000 PDF

Extrayez le texte brut, le contenu page par page et toutes les métadonnées de n'importe quelle URL PDF. Retourne titre, auteur, date de création, nombre de pages, nombre de caractères, et indicateurs pour PDF scannés (image seule) ou chiffrés. Construit pour le bulk : passez-lui 10 000 URLs et il retourne des lignes structurées. Idéal pour discovery juridique, ingestion RAG, audits de conformité et automatisation de workflows documentaires.

Ouvrir sur Apify → Essayez maintenant

Tarif

0,001$/PDF

RAM

128MB

Couverture

Toute URL

Champs de sortie

12+

Proxy

Apify datacenter

Tech

HTTP + pdfcpu

Ce que vous obtenez

Texte des pages : texte complet extrait plus tableau par page pour workflows paginés
Métadonnées : title, author, subject, creator, producer, creation_date, modification_date
Statistiques : page_count, char_count, word_count, file_size_bytes
Indicateurs : is_scanned (PDF image seule), is_encrypted, is_form
Source : source_url, content_type, http_status, scraped_at

Cas d'usage principaux

Discovery juridique. Extraction de texte en masse depuis dossiers, contrats et conclusions pour recherche et revue
Ingestion RAG. Envoyer rapports PDF, livres blancs et manuels directement dans des bases vectorielles
Audits de conformité. Scanner des milliers de PDF de politiques pour clauses, signatures ou mots-clés réglementaires
Agrégation de recherche. Extraire résumés, auteurs et texte intégral depuis URLs de prépublications académiques
Parsing factures et reçus. Extraire du texte structuré des PDF fournisseurs en comptabilité fournisseurs

Exemple d'API

# Lancer une exécution via l'API Apify
curl -X POST "https://api.apify.com/v2/acts/santamaria-automations~pdf-extractor/runs?token=YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "pdfUrls": [
      "https://example.com/report-2026.pdf",
      "https://example.com/contract-v3.pdf",
      "https://example.com/whitepaper.pdf"
    ],
    "extractText": true,
    "extractMetadata": true,
    "perPageText": false
  }'

# Ou utiliser avec des agents IA via MCP :
# https://mcp.apify.com?tools=santamaria-automations/pdf-extractor

Intégrations

n8n, Make, Zapier : déclencher des exécutions et traiter les enregistrements via webhook
Agents IA (MCP) : Claude Desktop, Cursor, VS Code, LangChain, LlamaIndex
Python, Node.js : SDK Apify pour l'accès programmatique
Google Sheets, Airtable : entrées en masse, données structurées en sortie

Champs de sortie

Champ	Type	Exemple
source_url	string	https://example.com/report.pdf
title	string	Rapport Annuel 2026
author	string	Acme SA
page_count	integer	142
char_count	integer	284 512
text	string	Résumé Exécutif...
creation_date	string	2026-01-15T09:30:00Z
is_scanned	boolean	false
is_encrypted	boolean	false
file_size_bytes	integer	4 218 940

Acteurs associés

HTML to Markdown: pages web converties en markdown propre pour les mêmes pipelines
Wikipedia Scraper: extraire des articles Wikipedia par titre ou URL avec métadonnées
Sitemap URL Discovery: trouver chaque lien PDF d'un site avant extraction en masse

Ouvrir sur Apify → Essayez maintenant (version gratuite disponible)