data_gouv_text

maintained

etalab-ia

View on GitHub

Ce dépôt contient le code pour extraire le texte des fichiers PDF trouvés sur data.gouv.fr. Il permet de récupérer et de traiter le contenu textuel de ces documents, facilitant ainsi leur analyse et leur réutilisation.

Python
MITDocumentation

Tech Stack

Dépendances

PDFBoxpython-pdfboxTesseractpyocrscikit-learnspaCyStanza

Composants

  • Scripts Python
  • Dockerfile
  • Configuration Nginx

Tags

Métriques

Stars
2
Forks
0
Open Issues
0
Last Activity
4 years ago

Information

Target Audience
Professionnels
Authentication
none